Как мы заняли первое место в хакатоне ВК «Машинное обучение на графах», где не было графов / Комментарии / Хабр

fingoldo 19 ноя 2022 в 19:59

Как это можно всё за 2 дня успеть?! Тут месяцами не успеваешь попробовать и половину подходов... )

aaasenin 24 ноя 2022 в 15:45

Были разрешены команды по 5 человек, это уже больше человеко-часов. Подходы мы выбирали прямолинейные и простые, чтобы уложиться.

savvvan 20 ноя 2022 в 01:08

Тру русский хакатон: Альфа банк на библиотеках Сбера выиграл хакатон VK )

P.S. молодцы

Lifestream + LAMA изначально задумывались как связка, когда после создания ET RNN мы поняли, что для end2end supervised NN даже у нас часто данных не хватает.

Впрочем, у нашей лабы несколько синергетичных разработок. Тот же pyboost, на котором недавно один из российских ds золотую медаль взял на kaggle на сореве по биоинформатике, это по сути один из кусков для lama (впрочем, у академической библиотеки для бустинга и большая самостоятельная ценность есть, так как индустриальные библиотеки типа CatBoost или LGBM плохо подходят для проверки новых гиротез и обучения исследователей, а не практиков)

Но изначально мы столкнулись с тем, что нормальных вариантов мультилейблинга/мультиаутпута для бустингов не было, так что пришлось самим пилить. Статью на NIPS 22 приняли в итоге.

Сейчас еще нейро лама появилась, режим прогона табличных нейронок.

С эмбеддингами это часто работает лучше, чем бустинг+линейка, последнее больше под классические табличные данные ориентировано, где фичи руками делаются.

aaasenin 24 ноя 2022 в 15:42

На самом деле в финальном решении хорошо зашло использование таргетов соседей и tf-idf на последовательностях (за двое суток никто из участников не побил чем-то сложнее, насколько мне известно). Эмбеддинги lifestream повысили качество немного, возможно их можно было приготовить получше. LightAutoML был более полезен, сэкономил время на проверку идей, хотя другие участники обошлись тюнингом катбуста.