Search
Write a publication
Pull to refresh
71.68

Оптимизация стратегии взыскания с помощью ML-моделей

Level of difficultyMedium
Reading time9 min
Views1K

Привет! Меня зовут Мария Шпак, я лидер команды collection стрима моделирования розничного бизнеса в Департаменте анализа данных и моделирования банка ВТБ. Наша команда занимается разработкой моделей машинного обучения для различных процессов, в совокупности служащих для финансового урегулирования. Основной заказчик этих моделей — соответствующий департамент банка, целью которого является помощь клиентам, допустившим просрочку платежа или находящимся в графике, но имеющим риск просрочки (Pre-Collection). Наши коллеги предлагают клиентам различные инструменты урегулирования этой проблемы и в большинстве случаев добиваются скорейшего возврата клиента в график платежей и в статус добросовестного заемщика. Оптимизация стратегий финансового урегулирования предполагает учёт разных параметров ситуации клиента: причины возникновения просрочки, степени серьезности возникших у него проблем, а также наиболее удобных и эффективных способов установить с ним контакт. Все действия банка строго соответствуют требованиям Федерального закона № 230-ФЗ «О защите прав и законных интересов физических лиц при осуществлении деятельности по возврату просроченной задолженности…» от 03.07.2016 (в редакции от 13.12.2024). В частности, закон ограничивает количество звонков клиенту: не более одного в сутки, не более двух в течение календарной недели и не более восьми в течение календарного месяца. Связываться с клиентом можно с 8 до 22 часов в будние дни и с 9 до 20 часов в выходные и нерабочие праздничные дни по местному времени.

Основные блоки наших моделей могут быть классифицированы по разным основаниям:

  1. Модели переката в следующий бакет (интервал дней) просрочки – базовые прогнозы.

  2. Модели выбора оптимального инструмента взаимодействия с клиентом: звонок / сообщение / выезд к клиенту для личного общения / подача в суд или иные.

  3. Модели операционных составляющих взаимодействия с клиентом. Например, для звонков – это то, кем звонок должен совершаться (роботом или оператором), а также когда лучше позвонить (утром, днем или вечером, определив тем самым прайм-тайм для звонка) конкретному клиенту. С учетом строгих ограничений, установленных законом № 230-ФЗ, использование моделей машинного обучения для оптимизации коммуникации с клиентами является полностью оправданным. О конкретных результатах и эффектах мы расскажем далее в статье.

Наша команда разрабатывала модели для всех перечисленных и многих других процессов финансового урегулирования. В 2024 году мы получили предложение создать модель, которая будет определять, кто должен совершать звонок клиенту — робот или оператор. Это сразу показалось нам очень интересной задачей, в процессе решения которой возникало и было успешно решено много технических вопросов (о них подробнее дальше). Существует устойчивый стереотип, что телефонные звонки в качестве способа общения уже устарели. Сегодня люди чаще используют мессенджеры и социальные сети, активно применяют спам-фильтры и обычно звонят только близким или по предварительной договорённости. Но такая чувствительная тема, как просроченная задолженность клиента перед банком – достойный повод именно для общения голосом. 

У банка огромное количество клиентов, и некоторые из них периодически допускают просрочки. В структуре Департамента финансового урегулирования традиционно работает колл-центр, операторы которого совершают звонки должникам. Также используется роботизированный интеллектуальный агент. Выбор наиболее подходящего варианта общения в каждом конкретном случае представляет собой сложную задачу. Часть клиентов предпочитает более детальное общение, разбор технических причин просрочки и движения средств по разным счетам и потому просят перевести разговор на оператора, некоторые даже узнают робота по голосу (!) до того, как он представится. Другая часть, наоборот, предпочитает быстро узнать детали и обсудить ситуацию, не преодолевая психологического барьера, ведь робот по определению не будет осуждать и оценивать человека (операторы тоже этого не делают, но предшествующий опыт социального общения внушает клиентам обратное). 

Ещё один вызов для нас — большой объем данных о звонках. Для их обработки при разработке модели необходимы соответствующая инфраструктура и профессиональные навыки. При внедрении модели ежедневно производится расчёт данных по всем клиентам, которые уже находятся в просрочке или рискуют в неё попасть. Каждому из этих клиентов может потребоваться звонок для финансового урегулирования.

Далее наш ведущий разработчик ML-моделей Михаил расскажет подробнее о процессе разработки данной модели.

Разработка модели

Привет! Меня зовут Михаил Никонов. Я Data Scientist из команды collection стрима моделирования розничного бизнеса. Мы прогнозируем и оптимизируем способы финансового урегулирования просроченных долгов наших клиентов. 

Из соображений безопасности мы пока не применяем технологии искусственного сверхинтеллекта для выполнения этой задачи. Вместо этого мы разделяем процесс на отдельные этапы и оптимизируем каждый из них с помощью классических методов машинного обучения. Сегодня я продемонстрирую наши подходы к моделированию на примере задачи выбора оптимального варианта звонка клиенту — роботом или оператором.

Есть много способов финансового урегулирования. Самый популярный – телефонные звонки клиенту. Его можно представить по аналогии с продажами в виде воронки звонков. Всего в год банк совершает десятки миллионов звонков клиентам. Их совершают и роботы, и живые операторы. Наша задача — определить, кому из клиентов будет эффективнее позвонить оператору, а кому — роботу. 

Мы проанализировали звонки роботов и операторов за несколько лет, исключив из выборки клиентов с незначительной суммой просроченной задолженности. Также мы исключили первый звонок робота. Чтобы получить точные результаты, мы рассматривали только те звонки, в которых удалось дозвониться непосредственно до клиента (RPC=1) и после которых не производились дополнительные звонки в течение следующих шести дней (так называемый холд). Таким образом, модель была построена на "очищенных" данных. Проверка её работы на данных без холда показала высокую точность: показатели снизились незначительно.

*ПЗ – просроченная задолженность

*ПЗ – просроченная задолженность
*ПЗ – просроченная задолженность

Что же такое хорошо в нашей модели? Какой был таргет?

Главным критерием сегментации в процессе финансового урегулирования является количество дней просрочки. Подходы к клиентам, которые задержали платёж на несколько дней, существенно отличаются от тех, кто не платит более полугода. По инициативе заказчика в этой задаче мы дифференцировали бинарный таргет по сегментам просрочки. Для сегмента 1–30 успешным звонок считался для тех, кто в день звонка или следующие шесть дней заплатил почти всю сумму просроченной задолженности. Для следующих сегментов просрочки порог успешного звонка снижался «лесенкой», то есть к клиентам в глубокой просрочке предъявлялись всё более ослабленные требования к размеру оплаты. Итоговая выборка была сбалансирована по таргету, поэтому для демонстрации точности модели мы использовали не только стандартное значение Джини, но и более понятную заказчикам точность Accuracy. 

Таргет у модели бинарный, а факт звонка роботом или оператором — фича в модели. Это позволяет на применении подставлять в модель каждый инструмент по очереди и рассчитывать обе прогнозные оценки: для робота и для оператора.

Мы случайным образом разделили выборку клиентов на обучающую и тестовую. При этом звонки клиентов из тестовой выборки не могли попасть в обучающую, и наоборот. Также использовалась дополнительная выборка данных, отложенная по времени (ООТ — out-of-time).

Следующий этап — Feature Engineering (FE). Все данные собираем на день, предшествующий дню звонка, когда принимается решение, кто будет звонить. Для моделей collection собран особый вектор из более чем 1 тыс. фичей, специфичных для клиентов с просрочкой, а также более 5 тыс. признаков стандартной широкой витрины по каждому клиенту. Они включают социально-демографические данные, агрегированные показатели по регионам проживания клиентов, сезонность различных категорий транзакций и другую банковскую информацию. Из новых фичей в разработке: агрегаты по членам семьи клиента и по контрагентам карточных транзакций. Под эту задачу собирали и специфические витрины — например, результаты звонков робота и оператора в прошлом. На выходе FE для каждого клиента за день до звонка строится огромный вектор под 10 тыс. фичей, включая несколько сотен категориальных.

Далее требуется сократить это количество — Feature Selection. На нескольких кросс-фолдах трейна строим Catboost и LightGBM и отсеиваем те признаки, по которым не было ни одного разбиения ни в одной модели. Далее признаки ранжируем по индексу FI (Feature Importance) и по 20 штук добавляем в модель. Смотрим на максимальный Джини на тестовой выборке. Получаем несколько сотен признаков. Перебором (forward selection) выбираем самые значимые из них, которые дают наилучший Джини на тестовой выборке. При этом контролируем средний Джини на трейне, кросс-валидации и OOT.

Оптимизация гиперпараметров: осуществляем подбор гиперпараметров модели методом Optuna c максимизацией Джини на тестовой выборке и контролем overfitting. Количество итераций и learning rate подкручиваем в самом конце.

После завершения разработки мы проверяем эффективность модели на новых данных, которые ранее не использовались и никак не участвовали в процессе обучения.

Что же получилось?

Модель правильно прогнозирует, оплатит ли клиент задолженность после звонка робота или оператора, более чем в 70% случаев.

Одна модель рассчитывает два прогноза для каждого клиента на заданную дату: вероятность оплаты просроченной задолженности (полной или частичной) в случае звонка от робота и аналогичный прогноз в случае звонка от оператора. Эти значения можно сравнивать — например, вычисляя их соотношение, чтобы определить, какой способ коммуникации будет более эффективным в конкретной ситуации.

В таблице ниже можно посмотреть, как это выглядит на практике. 

Децили распределения ratio*

Отношение среднего ratio в дециле к среднему значению ratio по выборке в целом

1

0.744

2

0.870

3

0.932

4

0.972

5

1.007

6

1.041

7

1.072

8

1.097

9

1.116

10

1.150

*ratio – отношение прогноза для 1-ого инструмента к прогнозу для 2-ого инструмента (где под инструментами понимаются звонки робота или оператора)

Оценка эффекта от модели

В большинстве случаев операторы лучше роботов. Но они значительно дороже. Для клиентов с низкими сроками и суммами просрочки эффективность робота часто равна, а иногда даже выше эффективности операторов. В сложных случаях эффективность операторов значительно выше роботов.

Мы можем оценить экономический эффект модели для клиентов, которые попали в холд, т.к. оценки для них несмещенные. Расчёты показывают, что даже при сохранении доли звонков роботов и операторов сборы могли бы вырасти на 1,5%, при условии оптимального распределения клиентов между роботами и операторами (т.е. на основе модели). На первый взгляд прирост в 1,5% может показаться незначительным, однако даже на выборке клиентов, находящихся в холде, это соответствует дополнительным сборам в размере нескольких десятков миллионов рублей в год. Кроме того, это позволяет большему числу клиентов своевременно вернуться в график платежей.

Использование комбинации ML моделей в стратегии звонков

Параллельно в работе у нашей команды было внедрение модели, определяющей прайм-тайм для звонка клиенту. Эта модель прогнозирует вероятность дозвониться до клиента при звонке в конкретный интервал в течение суток. С математической точки зрения разработка её велась аналогично модели робот-оператор с той лишь разницей, что в лонг-листе фичей присутствовали специфические признаки, отражающие историческую успешность контактов в разное время суток. Версия модели без этих фичей на классическом наборе признаков тоже хорошо прогнозирует целевое событие — дозвон до клиента (RPC), но они позволяют существенно повысить точность прогноза.

Модель прайм-тайм была разработана и пропилотирована ранее (эффект в виде роста доли дозвонов за счет выбора правильного времени суток для звонка был в интервале от 10% до 20%) и прямой связи с выбором в пользу робота или оператора не имела, ведь вероятность дозвониться не зависит от того, кто совершает звонок. Зато её прогноз вероятности дозвониться индивидуален, а потому с небольшими преобразованиями может быть использован в комплексной формуле оценки ожидаемых выплат вместо константы. Мы предложили коллегам использовать прогноз этой модели наряду с основным прогнозом модели робот-оператор и предложение после дополнительного анализа на их стороне было принято. С точки зрения инфраструктуры внедрения дополнительных расходов мы практически не понесли, ведь модель прайм-тайм и так должна была считаться для своих целей ежедневно. 

Далее Департамент розничных кредитных рисков на основании прогнозов наших моделей (и робот-оператор, и прайм-тайм, и классических моделей прогноза переката в следующий бакет) разработал новую оптимальную стратегию звонков клиентам. Применить эту стратегию на всём потоке клиентов сразу было бы неверно, поэтому мы с коллегами планируем A/B тестирование, где в пилотной группе будет использоваться распределение между роботами и операторами на основе модельной стратегии, а в контрольной группе такое распределение будет производиться на основе эвристических правил. Так как горизонт прогноза модели не очень длинный, уже через короткое время можно будет на практике подтвердить пользу модельной стратегии для целей финансового урегулирования и повышения комфорта клиентов, а также при необходимости откалибровать прогнозы моделей и/или стратегию в целом.

После внедрения мы, конечно, внимательно мониторим реальное качество моделей. В будущем запланированы их доработки и улучшения — как за счёт анализа новых источников (в частности, гео-данных, транскрибации звонков и др.) и новых фичей, так и за счет более сложных целевых функций и новых алгоритмов, включая генеративные модели.

Tags:
Hubs:
Total votes 1: ↑1 and ↓0+1
Comments0

Articles

Information

Website
www.vtb.ru
Registered
Founded
Employees
over 10,000 employees
Location
Россия