egorborisov Jan 27 2020 at 13:24

Мониторинг работы кредитного скоринга в Power BI

5 min

9.2K

Data visualization *Machine learning *Project management *Product Management *Finance in IT

В условиях когда большая часть заявок на кредит рассматривается автоматически, мониторинг становится особенно важным. Всё ли работает в штатном режиме, как меняются ключевые показатели, какие изменения нужно внести, чтобы добиться нужного результата?

В статье я расскажу, как мы мониторим кредитный конвейер с помощью Power BI, какие отчеты и метрики используем для оценки качества выдач.

Ключевые показатели внутри дня

*здесь и во всех графиках далее будут приведены придуманные цифры

Дашборд обновляется каждые 2 часа, на нем сравниваются сегодняшние показатели ко времени обновления с показателями в среднем за последние 20 дней к этому же времени.

Нижняя граница — это 10% квантиль по показателю за последние 20 дней, верхняя — 90% квантиль, серая черточка — медиана. Заполнение цветом — это результат за сегодняшний день.

Показатели на дашборде:

Количество заявок
Очередь (кол-во заявок, по которым не принято решение на момент времени)
Уровень одобрения
Средняя сумма
Уровень выдач (отношение кол-ва выданных займов к одобренным заявкам)

На основе этого дашборда настроены алерты, которые падают ответственным сотрудникам в почту. Это удобный инструмент для ежедневной операционной аналитики. Особенно полезно смотреть его на следующий день после внесения серьезных изменений.

Маршрутизация заявок

В онлайн-кредитовании главный фактор принятия решения — это скорость. Клиент может оставить заявку на нескольких сайтах, и сделка достанется тому, кто быстрее принимает решение. Автоматизация принятия решения позволяет рассматривать заявки быстро и не бояться резких скачков в трафике.

Можно пойти дальше и посмотреть маршрутизацию более детально. Например, в зависимости от доступной информации о заемщике заявка может отправиться на конкретную модель. Это удобно, когда моделей становится много, и хочется быстро понять, какая из них на каком сегменте трафика работает, сколько заявок обрабатывает.

Качество выдач

Один из самых популярных показателей для оценки качества выдач — recovery rate. Рассчитывается как отношение входящего денежного потока к исходящему для определенной когорты. Обычно recovery rate анализируют по поколениям — винтажный анализ. Мы смотрим, как меняется метрика для каждого винтажа с течением времени.

Такое представление обладает несколькими преимуществами:

Виден не только сегодняшний результат, но и динамика
Можно мысленно или с помощью регрессии продлить линии до определенного срока и с высокой точностью увидеть ожидаемое значение показателя
Можно визуально понять какая дисперсия у показателя и делать более взвешенные выводы

Винтажами могут быть не только месяца, но и типы принятия решения или скоринговые модели. Показатель recovery rate некорректно использовать для оценки системы принятия решения при изменениях в продуктах, которые сильно влияют на доходность.

Сравнение скоринговых моделей

В случае когда решение имеет бинарный вид: одобрить/отказать, качество выдач характеризуется двумя показателями: уровень одобрения и просрочка. На них можно смотреть в разных разрезах: по времени, по типам принятия решения или по скоринговым моделям. Например, так выглядит уровень одобрения и просрочка скоринговым моделям:

*можно сделать вывод, что из этих трех моделей лучшей выглядит “Модель 2.1”. Она имеет самую низкую просрочку при высоком уровне одобрения. На практике бывает так, что такой выбор сделать сложнее, плюс нужно учитывать статистическую значимость полученных результатов.

Доход с заявки

Сложнее становится когда решение имеет вид не одобрить/отказать, а одобрено x (risk based limit) рублей по процентной ставке r (risk based pricing). В таких условиях легко представить ситуацию, когда просрочка растет, уровень одобрения в штуках снижается, при этом прибыль увеличивается.

Качество выдач оценивается уже 4 показателями: уровень одобрения, просрочка, средняя выданная сумма и средневзвешенная ставка %. Если у нас идет A/B тест нескольких скоринговых моделей сравнивать их по 4 показателям становится довольно сложно.

Пришлось ввести новую метрику, которая включает в себя все 4 фактора и выражает их одним числом — доход с заявки, который рассчитывается следующим образом:

Доход с заявки = (сумма платежей — сумма выдач)/кол-во заявок

Посмотрим, что и как влияет на этот показатель.

С ростом просрочки уменьшается сумма полученных платежей => доход с заявки падает
При увеличении уровня одобрения числитель растет, а знаменатель не меняется => доход с заявки растет
При увеличении средней процентной ставки сумма платежей растет => доход с заявки увеличивается
Рост средней суммы выдачи при прочих равных приводит к росту числителя => показатель растет

Теперь посмотрим на приведенные выше модели по доходу с заявки:

Модели 2.0 и 2.1 используют одинаковый скор-балл по разному с точки зрения определения кредитного лимита и выбора условий кредитования. И по комплексному показателю “Модель 2.0” уже выглядит предпочтительнее.

Доход с заявки универсальный и очень удобный инструмент. Но нужно учитывать несколько моментов: показатель может быть неустойчивым при изменениях в трафике, также у него довольно долгий период созревания, то есть он подходит для pdl займов или коротких потребительских кредитов.

Мониторинг моделей

В кредитовании всегда есть временной лаг между моментом выдачи и обратной связью. Даже если взять показатель FPD 7+ это 40 дней. В ситуации когда всё быстро меняется (новые продукты, новые скоринговые модели, источники информации, изменения в кредитной политике), хочется получать первую обратную связь не через 40 дней, а быстрее, желательно вообще день в день.

Наш мониторинг основан на следующей идее: сложный и часто меняющийся продукт может в какой-то момент “сломаться”, начать делать систематические ошибки в большом количестве, человек в этом плане более устойчив. Для проверки моделей часть трафика случайным образом отправляется на андеррайтера.

После этого можно сравнить решения, которые сделала модель с решениями андеррайтера. Большое кол-во отклонений — повод срочно разобраться в проблеме и принять меры. Можно использовать любой показатель качества классификации, адекватный условиям, например, F1 score.

Видно, что F1-score по одной модели сильно просел в определенный момент. Это было связано с изменениями в анкете. Дашборд позволил своевременно увидеть такое изменение и среагировать на него.

Распределение заявок по скор-баллу модели дает много информации об устойчивости. Оно не должно сильно отличаться от распределения на валидационном сете или меняться во времени.

Для выбора уровня одобрения и его корректировки удобно выводить просрочку по скоринговым баллам. Можно менять порог одобрения в зависимости от готовности бизнеса брать риски.

В заключение

В статье я показал только часть дашбордов, на практике их больше. Сейчас на 80-90% вопросов можно ответить без написания кода. Бизнес и аналитики могут генерить больше интересных гипотез и проверять часть своих идей самостоятельно.

Эффекты, которые можно увидеть на дашбордах далеко не всегда являются статистически значимыми. Нужно держать это в уме и при принятии важных решений проводить дополнительное исследование.

Tags:

Hubs: