Как стать автором
Обновить
591.77
Сбер
Технологии, меняющие мир

Второе место на Data Fusion Contest 2024

Время на прочтение3 мин
Количество просмотров591

В начале апреля завершилось ежегодное соревнование по машинному обучению с призовым фондом в 2 миллиона рублей — Data Fusion Contest 2024. Основных задач было две, и команда наших аналитиков-исследователей из Лаборатории ИИ заняли второе место в решении задачи по моделям оттока.

Какие задачи были на Data Fusion Contest 2024:

  1. По геоаналитике. Участникам предоставили синтетические транзакционные данные пользователей. Нужно было предсказать, в каких локациях пользователь будет снимать наличные. Список локаций, в которых возможно снятие, известен. В качестве метрики использовалась бинарная кроссэнтропия.

  2. По моделям оттока. Перед участниками стояла задача Time‑to‑Event на основе синтетических транзакционных данных пользователя — серий ежемесячных отчётных дат, на каждую из которых известна информация об активности пользователя (факту оттока), а также дата его последней транзакции перед выходом в отток. В рамках каждой отчётной даты предоставлялся отдельный непересекающийся набор пользователей с их историей транзакций за предшествующие полгода. Метрика — concordance index (CI).

При решении значительную часть препроцессинга данных и часть моделей взяли из open-source библиотеки pytorch-lifestream. В ансамбле использовали:

  • Две модели из открытых решений (nazarovo и kdimon15) и добавление к ним tf‑idf по mcc.

  • CoLES — одна из главных моделей ансамбля, используемая для получения представлений событийных данных в виде эмбеддингов. Эмбеддинги пользователя получены при помощи контрастивного обучения.

  • WTTE‑RNN — модель для получения риск‑эмбеддингов клиента в последний месяц.

  • WTTE‑CoLES (новый подход в работе с последовательностями) — эмбеддинги пользователя, полученные методом CoLES на равномерной по времени сетке. Также использовалась агрегация по выходу энкодера транзакций.

  • Supervised NN, предобученная методом CoLES.

  • Предсказание time по эмбеддингам и агрегатным фичам для дальнейшего предсказания target.

Интервью с одним из участников команды — Артёмом Сахно.

Расскажите, пожалуйста, о вашей команде. Как вы решили участвовать в конкурсе?

Наш Центр глубокого машинного обучения занимается разработкой нейронных сетей на последовательностях событий. Набралась группа людей, которые хотели бы поучаствовать в соревновании. У нашей команды была цель не только победить в соревновании, но и проверить текущие методы на новом датасете, и сформировать новые идеи.

Какую задачу вы решали в рамках конкурса?

Нужно было предсказать отток клиента по его транзакциям и общим признакам (возраст, информации о работе).

Какие методы машинного обучения вы применяли для решения задачи?

В основном это разработка нейронных сетей для получения эмбеддингов клиента.

Какие сложности возникли при решении?

Из-за не очень большого датасета было сложно организовать пайплайн валидации. Не всегда результаты на валидации коррелировали с лидербордом.

Какие улучшения вы бы внесли в свою модель, если бы у вас была возможность?

Больший выбор гиперпараметров.

Как думаете, чего не хватило, чтобы занять первое место?

Немного везения и опыта участия в соревнования

Что вы считаете своим главным достижением в рамках этого проекта?

Улучшение текущих методов, которые применяются в повседневной работе.

Планируете ли еще участвовать в этом соревновании?

Да

Будут ли применяться результаты, полученные при создании модели, в деятельности Банка?

Думаю, да

Поздравляем Артёма Сахно, Ивана Сергеева, Омара Золоева и Амурхана Дзагкоева с «серебряной медалью»!

Теги:
Хабы:
Всего голосов 3: ↑3 и ↓0+5
Комментарии1

Информация

Сайт
www.sber.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия