Привет, Хабр! Меня зовут Михаил Каменщиков, я руковожу командой Рекомендаций в Авито. Хочу рассказать про штуку, которую мы придумали на выезде — и которая в итоге переросла во что-то большее, чем внутренняя шутка команды.

У DS в Авито есть традиция: раз в год мы выбираемся за город, отключаемся от рабочих проектов и делаем что-нибудь совершенно не похожее на обычный день. В этот раз был отель, живая музыка и — неожиданно — долгие разговоры за кофе о том, как объяснить людям вне профессии, чем мы вообще занимаемся. Потому что объяснять — это правда сложно.

«Ну ты типа в экселе считаешь?»

Каждый DS хоть раз слышал что-то подобное. И каждый раз пытается найти слова.

Хотя, если подумать — наши задачи сами по себе звучат как хорошие истории. Вот несколько примеров из жизни команды Авито.

Мы обучили ML-модель распознавать «договорённости» между продавцами и покупателями в чатах — без данных о реальных сделках. Почему это сложно? Потому что «договоренность» — абстракция: одни пишут «встретимся в пять», другие — «может, подъеду, не знаю». Пришлось собрать вместе бизнес, аналитиков и дата-сайентистов, написать инструкцию, разметить данные вручную, итеративно устранять серые зоны — и в итоге получить метрику, которую теперь используют в целеполагании всей компании и A/B-тестах.

Или вот: главная страница Авито — это бесконечная персональная лента объявлений, через которую проходит около 50% всех просмотров и 30% контактов покупателей с продавцами. Казалось бы, просто покажи самое релевантное — и дело сделано. Но если модель ранжирует объявления независимо, она показывает пять одинаковых айфонов подряд. Мы сделали блендер на основе трансформерной модели интересов пользователя — и получили +2,5% пользователей, дошедших до контакта с продавцом. На масштабах Авито это сотни тысяч дополнительных покупателей в сутки.

А ещё у нас есть внутренний BI-инструмент М42 с более чем 16 000 бизнес-метрик. Поиск нужной метрики вручную — боль. Мы встроили ИИ-ассистент на основе RAG и LLM: один из пользователей написал: «ИИ-ассистент нашёл данные с первого запроса. Я их несколько месяцев назад искал почти час. Фантастика!» Построение графиков стало быстрее в два раза.

Объяснить, кто такой дата-саентист примерно так же сложно, как и догадаться что же происходит на этом фото с нашего выезда
Объяснить, кто такой дата-саентист примерно так же сложно, как и догадаться что же происходит на этом фото с нашего выезда

Вот чем на самом деле занимаются дата-сайентисты: детективные расследования в данных, поиск сигнала в шуме, объяснение абстракций через цифры — и постоянный баланс между «работает в теории» и «работает в проде».

На этом же выезде гвоздём программы был хакатон по управлению беспилотными автомобилями, реализованный с помощью симулятора CARLA. Звучит как «опять дедлайны» — и да, поначалу скепсис был. «Мы и так целый год обучали модели, дайте просто отдохнуть», — думал каждый второй.

Но сработало идеально. Задача вне домена Авито, команды из разных отделов, которые в обычной жизни пересекаются редко, — и вдруг за кофе-брейком обсуждаешь не задачи поиска, а почему твоя машина в симуляторе устраивает токийский дрифт вместо того, чтобы ехать по полосе.

Финал с голосованием и жюри дал больше живых эмоций, чем любая ретроспектива.
Финал с голосованием и жюри дал больше живых эмоций, чем любая ретроспектива.

Вот тогда и стало окончательно понятно: игровой формат — это просто другой способ думать о сложном.

Игровой подход работает — и мы знаем это на собственном опыте

Как появился Avito Data Quest

Мы взяли повседневные задачи DS-специалистов и упаковали их в интерактивный квест. Три блока:

базовый ML и Python — можно ли с вами разговаривать на одном языке?
ситуативные задачи — здесь нужны опыт и интуиция, хотя иногда хватает смекалки;
Марио — Data Scientist — да, тот самый Марио, только теперь он аналитик данных и бежит по офису Авито. Можно заработать подсказку 50 на 50.

После трёх блоков — выбор направления и хардовые вопросы по нему. Последний кейс мы намеренно сделали нетривиальным: это то, что заставляет по-настоящему думать, а не просто вспоминать.

Маленький честный спойлер: часть вопросов мы используем на реальных собеседованиях. Так что это не просто квиз — это что-то вроде демо-режима перед интервью, только без стресса и галстука.

Почему именно Марио?

Потому что мы его любим. Но раз уж вы айтишники — вот факт, который всё объясняет: оригинальная игра помещалась на картридже объемом 40 килобайт (32 КБ на код, 8 КБ на графику). Это меньше, чем весит средняя иконка приложения. При этом — свыше 50 миллионов проданных копий, а вся серия вплотную подходит к отметке 1 миллиард.

Красивое инженерное решение в рамках жёстких ограничений. Звучит знакомо?

Что в итоге?

Пять победителей получат мерч AvitoTech. Подведение итогов — 20 марта.

Но честно: мы запомним не только победителей. Нетривиальное мышление и неожиданный ход — это именно то, за чем мы вообще следим. Немедленный оффер не обещаем. Хотя, как показал наш выезд, из спонтанных идей иногда вырастает кое-что интересное.

→ Попробовать Avito Data Quest