Рассмотрим, как работают алгоритмы в банковском скоринге, какие метрики используются и какие параметры заемщика влияют на то, выдадут кредит или нет. В статье описывается прошедший конкурс с kaggle по предсказанию вероятности дефолта и приводятся влияющие на риск дефолта параметры.

Ошибка первого и второго рода


Цель банка – заработать деньги. Первый риск, с которым сталкивается кредитная организация — дать кредит заемщику, который допустит дефолт. Дефолт может иметь разные причины, от финансовых трудностей заемщика, и заканчивая фродом.

Для банка это — ошибка первого рода.

Но если банк будет вести жесткую политику, и никому не выдает кредиты, даже тем, кто вернул бы деньги, то банк не заработает на процентах. Отказ в кредите ответственному заемщику – ошибка второго рода.

Для оценки качества принимаемых алгоритмом решений, используется коэффициент Джини (GINI). В экономике и в Data Science коэффициент Gini имеет разную интерпретацию. Для кредитного скоринга он рассчитывается, как

GINI = 2 ROC AUC — 1

Для оценки банковского скоринга используется стандартная ROC AUC кривая!




Рис.1 ROC AUC кривая. Площадь под кривой п��казывает качество работы алгоритма. Если площадь равна 0.5, то это случайный прогноз (для бинарного классификатора), 1 – идеальный прогноз.

Алгоритмы для скоринга


Особенностью алгоритмов для скоринга, является требование к интерпретируемости. В связи с этим, часто используются линейные модели.

Для максимизации качества имеет смысл использовать композиции деревьев, такие как случайный лес, и XGboost. Для кейсов с большим количеством транзакционных данных, подойдут и DNN архитектуры, но нейросети целесообразно применять только самым крупным кредитным учреждениям.

Применение алгоритмов в кредитных учреждениях чаще обусловлено не максимизацией качества, а требованиями к процессу принятия решения, поэтому убедитесь, что ваша нейронная сеть достаточно интерпретируема, прежде чем выпускать решение в бой!

Параметры, влияющие на риск дефолта


Разберем влияющие параметры на примере решений с соревнования на Kaggle — Home Credit Default Risk, прошедшим год назад.

В наборе 220 параметров.


Рис.2 Распределение дефолтных и возвращенных кредитов.
Ряд изображений взяты из ноутбуков опубликованных усасниками конкурса, более подробно с решениями можно ознакомиться по ссылке.

Источники: 1, 2, 3

Классы несбалансированы, дефолтов меньше чем возвращенных кредитов.

Визуализируем распределения параметров, чтобы определить, имеют ли дефолтные займы отличающееся распределение.



Рис.3 Пример распределения дефолтных и возвращенных кредитов по возрасту.

Из изображения 3 следует, что молодые заемщики имеют больший риск дефолта.

Помимо описанных характеристик заемщика, имеются еще такие параметры как EXT_SOURCE 1,2,3. В этом наборе данных, это параметры полученные от бюро кредитных историй и поставщиков внешних данных. Компания DATA4, в которой я работаю, является примером подобного поставщика, но рассматриваемом наборе наших данных нет. Активными игроками на рынке торговли данными являются сотовые операторы и БКИ.

Построим корреляционную матрицу, чтобы посмотреть, с какими параметрами коррелируют прогнозы внешних поставщиков данных, и как они влияют на качество алгоритма.



Построим распределения по данным внешних поставщиков, и увидим, что они имеют отличия для дефолтных кредитов.

Для большего количества признаков получим следующую картину, которую достаточно сложно интерпретировать, но которая дает целостное представление.





Найдем влияющие на дефолт факторы по feature_importances



Построим диаграмму важности признаков для алгоритма RF.



Что влияет


1) Скоринг от бюро кредитных историй и внешних поставщиков данных, таких как наша компания
2) Возраст и гендер
3) Время, которое прожил заемщик по месту последней регистрации
4) Срок кредита
5) Тип запрашиваемого кредита
6) Процент, который кредит составит от денежного потока и зарплаты клиента
7) Времени использования заемщиком последнего телефонного номера
8) Времени на последнем месте работы, и доля от общего стажа
9) Кредитный денежный поток
10) Сумма кредита

В статье были рассмотрены принципы работы кредитного скоринга, и показаны параметры, которые вносят наибольший вклад в решение о выдачи кредита. Результаты выглядят правдоподобно, чем лучше кредитная история заемщика, чем дольше заемщик работает на одной работе, реже меняете номер телефона и место жительства, и чем меньше доля кредита от располагаемых доходов, тем меньше риск дефолта. Но следует помнить, что результаты построены на данных конкретного кредитного учреждения, и могут не подходить для другого кейса.