Как стать автором
Обновить

Как мы заняли первое место в хакатоне ВК «Машинное обучение на графах», где не было графов

Время на прочтение7 мин
Количество просмотров4.4K
Всего голосов 27: ↑25 и ↓2+23
Комментарии4

Комментарии 4

Как это можно всё за 2 дня успеть?! Тут месяцами не успеваешь попробовать и половину подходов... )

Были разрешены команды по 5 человек, это уже больше человеко-часов. Подходы мы выбирали прямолинейные и простые, чтобы уложиться.

Тру русский хакатон: Альфа банк на библиотеках Сбера выиграл хакатон VK  )

P.S. молодцы

Lifestream + LAMA изначально задумывались как связка, когда после создания ET RNN мы поняли, что для end2end supervised NN даже у нас часто данных не хватает.

Впрочем, у нашей лабы несколько синергетичных разработок. Тот же pyboost, на котором недавно один из российских ds золотую медаль взял на kaggle на сореве по биоинформатике, это по сути один из кусков для lama (впрочем, у академической библиотеки для бустинга и большая самостоятельная ценность есть, так как индустриальные библиотеки типа CatBoost или LGBM плохо подходят для проверки новых гиротез и обучения исследователей, а не практиков)

Но изначально мы столкнулись с тем, что нормальных вариантов мультилейблинга/мультиаутпута для бустингов не было, так что пришлось самим пилить. Статью на NIPS 22 приняли в итоге.

Сейчас еще нейро лама появилась, режим прогона табличных нейронок.

С эмбеддингами это часто работает лучше, чем бустинг+линейка, последнее больше под классические табличные данные ориентировано, где фичи руками делаются.

На самом деле в финальном решении хорошо зашло использование таргетов соседей и tf-idf на последовательностях (за двое суток никто из участников не побил чем-то сложнее, насколько мне известно). Эмбеддинги lifestream повысили качество немного, возможно их можно было приготовить получше. LightAutoML был более полезен, сэкономил время на проверку идей, хотя другие участники обошлись тюнингом катбуста.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий