Второе место на Data Fusion Contest 2024
В начале апреля завершилось ежегодное соревнование по машинному обучению с призовым фондом в 2 миллиона рублей — Data Fusion Contest 2024. Основных задач было две, и команда наших аналитиков-исследователей из Лаборатории ИИ заняли второе место в решении задачи по моделям оттока.
Какие задачи были на Data Fusion Contest 2024:
По геоаналитике. Участникам предоставили синтетические транзакционные данные пользователей. Нужно было предсказать, в каких локациях пользователь будет снимать наличные. Список локаций, в которых возможно снятие, известен. В качестве метрики использовалась бинарная кроссэнтропия.
По моделям оттока. Перед участниками стояла задача Time‑to‑Event на основе синтетических транзакционных данных пользователя — серий ежемесячных отчётных дат, на каждую из которых известна информация об активности пользователя (факту оттока), а также дата его последней транзакции перед выходом в отток. В рамках каждой отчётной даты предоставлялся отдельный непересекающийся набор пользователей с их историей транзакций за предшествующие полгода. Метрика — concordance index (CI).
При решении значительную часть препроцессинга данных и часть моделей взяли из open-source библиотеки pytorch-lifestream. В ансамбле использовали:
Две модели из открытых решений (nazarovo и kdimon15) и добавление к ним tf‑idf по mcc.
CoLES — одна из главных моделей ансамбля, используемая для получения представлений событийных данных в виде эмбеддингов. Эмбеддинги пользователя получены при помощи контрастивного обучения.
WTTE‑RNN — модель для получения риск‑эмбеддингов клиента в последний месяц.
WTTE‑CoLES (новый подход в работе с последовательностями) — эмбеддинги пользователя, полученные методом CoLES на равномерной по времени сетке. Также использовалась агрегация по выходу энкодера транзакций.
Supervised NN, предобученная методом CoLES.
Предсказание time по эмбеддингам и агрегатным фичам для дальнейшего предсказания target.
Интервью с одним из участников команды — Артёмом Сахно.
Расскажите, пожалуйста, о вашей команде. Как вы решили участвовать в конкурсе?
Наш Центр глубокого машинного обучения занимается разработкой нейронных сетей на последовательностях событий. Набралась группа людей, которые хотели бы поучаствовать в соревновании. У нашей команды была цель не только победить в соревновании, но и проверить текущие методы на новом датасете, и сформировать новые идеи.
Какую задачу вы решали в рамках конкурса?
Нужно было предсказать отток клиента по его транзакциям и общим признакам (возраст, информации о работе).
Какие методы машинного обучения вы применяли для решения задачи?
В основном это разработка нейронных сетей для получения эмбеддингов клиента.
Какие сложности возникли при решении?
Из-за не очень большого датасета было сложно организовать пайплайн валидации. Не всегда результаты на валидации коррелировали с лидербордом.
Какие улучшения вы бы внесли в свою модель, если бы у вас была возможность?
Больший выбор гиперпараметров.
Как думаете, чего не хватило, чтобы занять первое место?
Немного везения и опыта участия в соревнования
Что вы считаете своим главным достижением в рамках этого проекта?
Улучшение текущих методов, которые применяются в повседневной работе.
Планируете ли еще участвовать в этом соревновании?
Да
Будут ли применяться результаты, полученные при создании модели, в деятельности Банка?
Думаю, да
Поздравляем Артёма Сахно, Ивана Сергеева, Омара Золоева и Амурхана Дзагкоева с «серебряной медалью»!