cat_power Feb 8 2018 at 12:51

Роботы вместо лучших сотрудников: машинное обучение по ответам экспертов

11 min

7.7K

Devim corporate blogBig Data*Machine learning*

Recovery Mode

+20

Comments 7

svcuonghvktqs Feb 8 2018 at 16:26

Хороший проект! Если будет успешно реализовываться, то вообще это будет приводить к значительному сокрашению финансовых расходов в условиях усиления конкуренции на рынках и роста зарплатных ожиданий сотрудников.

WTYPMAH Feb 9 2018 at 10:46

Для хаба «машинное обучение» в статье описано только «для скор-карт используйте лог-регрессию и трансформируйте переменные»? Было бы полезно описать хотя бы шаги построения модели, какие были промежуточные результаты, как проходил feature engineering и feature selection, почему для второй модели был выбран RF, как проходил тюнинг RF и тд. и тп.

С acceptance rate 10% и gini модели в 86% + на базе RF проблема eject inference еще более была усугблена и модель, скороее всего, была переобучена: решения андеррайтеров принимались исключительно в «зеленой зоне» ИМХО. Было бы интересно также посмотреть анализ связи принятых решений и NPL — это позволит сразу понять на сколько acceptance rate 10% адекватный + имеет ли смысл строить модель на решение андеррайтера.

Подход в целом интересный, но очень не хватает деталей для такого хаба…

cat_power Feb 9 2018 at 17:47

Спасибо за комментарий и проявленный интерес к проекту!

Да, действительно, некоторые важные подробности мы не привели из-за того, что:

1) в этом случае были бы раскрыты некоторые детали, которые бизнесу важно сохранить как коммерческую тайну,
2) мы хотели акцентировать внимание на самом подходе, подробности по конкретной реализации привели бы к увеличению объёма публикации.
На наш взгляд, проблему reject inference удалось обойти, т.к. использовался довольно широкий набор признаков и TTD-выборка.

По поводу более полного описания выбора модели — постараемся это описать в нашем следующем материале.

avb2001 Feb 13 2018 at 16:50

Слабенько, товарищи. Уровень zero-to-junior datа scientist. Зачем упоминать этот CRISP-DM 2000 г? Уже как бы 18 г на дворе. Проблема скоринга заявок изъезжена вдоль и поперек и в общем-то относится к стандартным.

cat_power Feb 13 2018 at 17:37

Спасибо за интерес и критические замечания, но аргументация нам не очень понятна.

Мы пишем о том, как выбор целевой функции в рамках предложенного нами подхода может отразиться на разных фазах выполнения проекта. В этом смысле CRISP-DM использован просто как пример методологии, регламентирующей фазы проекта.

По поводу скоринга: несмотря на то, что задача скоринга хорошо изучена, в рамках любого проекта по реализации скоринга для конкретной МФО существуют особенности, которые необходимо учитывать.

В частности, здесь мы учитывали особенности выбора целевой функции, а также необходимость использования модели автоотказа на основе данных базы данных судебных решений (без кредитных историй как таковых). В такой постановке нельзя сказать, чтобы задача была уже хорошо исследована.

avb2001 Feb 13 2018 at 21:08

Да, вы начали интересно — предсказать возможность просрочки. Особенно, если брать исторические данные на момент выдачи кредита, а не когда эта просрочка уже случилась. Это мог бы быть интересный дата саенс.
Ну, или хотя бы сравнили свою модель с реальными какими-то результатами и лучше или хуже получилось, чем у «естественного» интеллекта…
Вы в итоге взяли простые доступные данные, пролейбелили простейшим образом и запихнули в какой-то классификатор. Рассказали бы, какие у вас получились «сильные» атрибуты. Скорее всего наличие ИП и подтверждаемый доход (ну, какой кредит человеку если у него уже старый через суд выбивают).
Надеюсь, я достаточно конструктивно написал.

cat_power Feb 14 2018 at 13:12

Описанное решение является (сравнительно) простым в реализации, но как раз в этом и заключается его основное преимущество.
Как известно, усложнение алгоритмов не всегда приводит к повышению качества решения, и, тем более, не всегда ведет к оптимизаци ROI. Простые подходы также легче принимаются бизнесом и несут меньшие риски. Также, превзойти «естественный ителлект» в точности оценки просрочки не было целью на данный момент. Задача состояла в том, чтобы 1) сократить расходы (главным образом на запросы в БКИ) путём автоотказа, но при этом не отклонить хорошие заявки, 2) получить масштабируемое решение; про проверку на реальных данных — писали в разделе 4.3. По важным атрибутам — действительно, значимые переменные включают факт наличия дохода, сам доход, сумма займа, общее кол-во задолженностей, кол-во дней с момента последнего ИП, наличие определенных видов задолженностей и штрафов.