Что такое скоринг, и почему он никогда не будет работать (как мы хотим)

Наверное, я скучный . Все рисковики скучные люди. Как и бухгалтера. Встречаются, конечно, отклонения, но на доверительном интервале (интервал, который покрывает неизвестный метр с заданной надёжностью) в 80% они все такие.

И вот вы уже начали засыпать. Подождите, рано!
Я могу предсказать, собираетесь ли вы совершить преступление, и курс доллара на завтра! Я могу предсказать цены на нефть!

И вот вы снова со мной.
Очень многие ют такими словами, но не об этом сейчас. Мы замахнулись на куда более значимое с моей точки зрения – на оценку человека по определенным параметрам. Точнее – на оценку его кредитоспособности, но что вы подумаете о человеке, про которого скажут – у него низкий кредитный рейтинг?
Звучит почти как потеря доверия.
Считается, что существует корреляция между определенными социальными данными (наличие детей, курение, возраст, наличие высшего образования) и добросовестностью заемщика.
Т.е. дайте мне все исходные, и я смогу предсказать вам, вернет ли деньги конкретный человек. И так это и выглядит со стороны.
На самом деле (и я уже об этом писал в других изданиях) овый балл позволяет предсказать как минимум со следующими допущениями: человек, живущий в той же местности, где проведена выборка (выборка = собраны данные о случаях невозврата и возврата других заемщиков), при получении суммы аналогичной выборке (а если в выборке разброс слишком сильный, принимать ее нельзя) с вероятностью в 85% (обычно так) вернет кредит в срок. Если нет – мы удивимся. Но поскольку В ОСНОВНОМ модель работает, мы и будем по ней оценивать.
Это база. Интереснее следующее (как любил Эйнштейн – без математики, мысленный экспеент): предположим мы знаем всё о заемщике, даже исходное положение атомов в его теле. Предположим у нас есть другой такой же заемщик, который нам кредит вернул. Можем ли мы со 100% вероятностью сказать, что этот тоже вернет, если мы точно знаем как каждое положение атомов и параметры воздействуют на возвратность (мы закредитовали Содружество Вселенной, у нас есть данные о 10^15 заемщиков?
Совершенно верно!
Что верно? Вероятно можем. Но почему? Мы же все учли?
А вот оно как: существует принцип неопределённости Гейзенбе́рга, который, согласно скучной Википедии звучит так – чем точнее измеряется одна харистика частицы, тем менее точно можно измерить вторую.
Сейчас объясню.
Чем точнее вы знаете скорость машины, на которой вы едете, тем менее точными становятся ваши координаты.
Ну а в случае с заемщиком, если принять его за точку на плоскости, очень такую жирную – возвратность станет таким расплывчатым пятном ВСЕГДА больше исходного состояния. И этого никак не изменить.
Поэтому идеального скоринга нет и не будет, хотя точность повышается с количеством принятых данных.
Но как-то оценивать надо, и мы принимаем все больше значений, хотя чем разрозненнее значения, тем больше стандартная ошибка. И в итоге больше половины времени занимает обработка данных, очистка, которая, в свою очередь, уменьшает точность прогноза отклоненных событий, и приводит ко всё большему удивлению в случае неудачи.

P.S.

А вообще проверяйте свои догадки Байесом.

Пример с Вики, чтобы было понятнее, о чем я:

Предположим, при рентгеновском обследовании вероятность обнаружить заболевание туберкулезом у больного туберкулезом равна 0,9, вероятность принять здорового человека за больного равна 0,01. Доля больных туберкулезом по отношению ко всему населению равна 0,001. Найти вероятность того, что человек здоров, если он был признан больным при обследовании.
P(«Б» | Б) = 0,9; Р(«Б» | З)= 0,01; Р(Б) = 0,001, значит P (З) = 0,999; Р(З | «Б») — ?
Вычислим сначала полную вероятность признания больным: 0,999 × 0,01 + 0,001 × 0,9 = 1,089 %.
Вероятность «здоров» при диагнозе «болен»: Р(З | «Б») = 0,999 × 0,01 / (0,999 × 0,01 + 0,001 × 0,9)= 91,7 %.
Таким образом, 91,7 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных туберкулёзом и здоровых. Туберкулез — редкое явление, поэтому и возникает такой парадокс Байеса.

2016-12-29 13:12:00

скоринг, , , риск менеджмент, парадоксы, байес, , риски, scoring, квантовая неопределенность

DISCLAIMER

Last updated February 01, 2018


WEBSITE DISCLAIMER

The information provided by ThinkMyTime ("we," "us," or "our") on https://thinkmytime.com/ (the "Site") is for general informational purposes only. All information on the Site is provided in good faith, however we make no representation or warranty of any kind, express or implied, regarding the accuracy, adequacy, validity, reliability, availability, or completeness of any information on the Site. UNDER NO CIRCUMSTANCE SHALL WE HAVE ANY LIABILITY TO YOU FOR ANY LOSS OR DAMAGE OF ANY KIND INCURRED AS A RESULT OF THE USE OF THE SITE OR RELIANCE ON ANY INFORMATION PROVIDED ON THE SITE. YOUR USE OF THE SITE AND YOUR RELIANCE ON ANY INFORMATION ON THE SITE IS SOLELY AT YOUR OWN RISK. Please note that the opinions expressed by the authors on ThinkMyTime.com are their own and may differ from the opinions of the website's administrators or other authors. All posts are published "as is" and are intended to support free speech and open discussion. The website administrators do not endorse or take responsibility for any of the opinions or statements expressed by the authors on the website. ThinkMyTime.com is not responsible for any errors or omissions in the content provided by the authors. Readers should use their own judgment when reading the posts on this website and should not rely solely on the information provided herein.

This disclaimer was created using Termly's Disclaimer Generator.

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Translate »
%d bloggers like this: