Описанное решение является (сравнительно) простым в реализации, но как раз в этом и заключается его основное преимущество.
Как известно, усложнение алгоритмов не всегда приводит к повышению качества решения, и, тем более, не всегда ведет к оптимизаци ROI. Простые подходы также легче принимаются бизнесом и несут меньшие риски. Также, превзойти «естественный ителлект» в точности оценки просрочки не было целью на данный момент. Задача состояла в том, чтобы 1) сократить расходы (главным образом на запросы в БКИ) путём автоотказа, но при этом не отклонить хорошие заявки, 2) получить масштабируемое решение; про проверку на реальных данных — писали в разделе 4.3. По важным атрибутам — действительно, значимые переменные включают факт наличия дохода, сам доход, сумма займа, общее кол-во задолженностей, кол-во дней с момента последнего ИП, наличие определенных видов задолженностей и штрафов.
Спасибо за интерес и критические замечания, но аргументация нам не очень понятна.
Мы пишем о том, как выбор целевой функции в рамках предложенного нами подхода может отразиться на разных фазах выполнения проекта. В этом смысле CRISP-DM использован просто как пример методологии, регламентирующей фазы проекта.
По поводу скоринга: несмотря на то, что задача скоринга хорошо изучена, в рамках любого проекта по реализации скоринга для конкретной МФО существуют особенности, которые необходимо учитывать.
В частности, здесь мы учитывали особенности выбора целевой функции, а также необходимость использования модели автоотказа на основе данных базы данных судебных решений (без кредитных историй как таковых). В такой постановке нельзя сказать, чтобы задача была уже хорошо исследована.
Спасибо за комментарий и проявленный интерес к проекту!
Да, действительно, некоторые важные подробности мы не привели из-за того, что:
1) в этом случае были бы раскрыты некоторые детали, которые бизнесу важно сохранить как коммерческую тайну,
2) мы хотели акцентировать внимание на самом подходе, подробности по конкретной реализации привели бы к увеличению объёма публикации.
На наш взгляд, проблему reject inference удалось обойти, т.к. использовался довольно широкий набор признаков и TTD-выборка.
По поводу более полного описания выбора модели — постараемся это описать в нашем следующем материале.
Информация
В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Как известно, усложнение алгоритмов не всегда приводит к повышению качества решения, и, тем более, не всегда ведет к оптимизаци ROI. Простые подходы также легче принимаются бизнесом и несут меньшие риски. Также, превзойти «естественный ителлект» в точности оценки просрочки не было целью на данный момент. Задача состояла в том, чтобы 1) сократить расходы (главным образом на запросы в БКИ) путём автоотказа, но при этом не отклонить хорошие заявки, 2) получить масштабируемое решение; про проверку на реальных данных — писали в разделе 4.3. По важным атрибутам — действительно, значимые переменные включают факт наличия дохода, сам доход, сумма займа, общее кол-во задолженностей, кол-во дней с момента последнего ИП, наличие определенных видов задолженностей и штрафов.
Мы пишем о том, как выбор целевой функции в рамках предложенного нами подхода может отразиться на разных фазах выполнения проекта. В этом смысле CRISP-DM использован просто как пример методологии, регламентирующей фазы проекта.
По поводу скоринга: несмотря на то, что задача скоринга хорошо изучена, в рамках любого проекта по реализации скоринга для конкретной МФО существуют особенности, которые необходимо учитывать.
В частности, здесь мы учитывали особенности выбора целевой функции, а также необходимость использования модели автоотказа на основе данных базы данных судебных решений (без кредитных историй как таковых). В такой постановке нельзя сказать, чтобы задача была уже хорошо исследована.
Да, действительно, некоторые важные подробности мы не привели из-за того, что:
1) в этом случае были бы раскрыты некоторые детали, которые бизнесу важно сохранить как коммерческую тайну,
2) мы хотели акцентировать внимание на самом подходе, подробности по конкретной реализации привели бы к увеличению объёма публикации.
На наш взгляд, проблему reject inference удалось обойти, т.к. использовался довольно широкий набор признаков и TTD-выборка.
По поводу более полного описания выбора модели — постараемся это описать в нашем следующем материале.