Привет, Хабр! Меня зовут Михаил Каменщиков, я руковожу командой Рекомендаций в Авито. Хочу рассказать про штуку, которую мы придумали на выезде — и которая в итоге переросла во что-то большее, чем внутренняя шутка команды.
У DS в Авито есть традиция: раз в год мы выбираемся за город, отключаемся от рабочих проектов и делаем что-нибудь совершенно не похожее на обычный день. В этот раз был отель, живая музыка и — неожиданно — долгие разговоры за кофе о том, как объяснить людям вне профессии, чем мы вообще занимаемся. Потому что объяснять — это правда сложно.

«Ну ты типа в экселе считаешь?»
Каждый DS хоть раз слышал что-то подобное. И каждый раз пытается найти слова.
Хотя, если подумать — наши задачи сами по себе звучат как хорошие истории. Вот несколько примеров из жизни команды Авито.
Мы обучили ML-модель распознавать «договорённости» между продавцами и покупателями в чатах — без данных о реальных сделках. Почему это сложно? Потому что «договоренность» — абстракция: одни пишут «встретимся в пять», другие — «может, подъеду, не знаю». Пришлось собрать вместе бизнес, аналитиков и дата-сайентистов, написать инструкцию, разметить данные вручную, итеративно устранять серые зоны — и в итоге получить метрику, которую теперь используют в целеполагании всей компании и A/B-тестах.
Или вот: главная страница Авито — это бесконечная персональная лента объявлений, через которую проходит около 50% всех просмотров и 30% контактов покупателей с продавцами. Казалось бы, просто покажи самое релевантное — и дело сделано. Но если модель ранжирует объявления независимо, она показывает пять одинаковых айфонов подряд. Мы сделали блендер на основе трансформерной модели интересов пользователя — и получили +2,5% пользователей, дошедших до контакта с продавцом. На масштабах Авито это сотни тысяч дополнительных покупателей в сутки.
А ещё у нас есть внутренний BI-инструмент М42 с более чем 16 000 бизнес-метрик. Поиск нужной метрики вручную — боль. Мы встроили ИИ-ассистент на основе RAG и LLM: один из пользователей написал: «ИИ-ассистент нашёл данные с первого запроса. Я их несколько месяцев назад искал почти час. Фантастика!» Построение графиков стало быстрее в два раза.

Вот чем на самом деле занимаются дата-сайентисты: детективные расследования в данных, поиск сигнала в шуме, объяснение абстракций через цифры — и постоянный баланс между «работает в теории» и «работает в проде».
На этом же выезде гвоздём программы был хакатон по управлению беспилотными автомобилями, реализованный с помощью симулятора CARLA. Звучит как «опять дедлайны» — и да, поначалу скепсис был. «Мы и так целый год обучали модели, дайте просто отдохнуть», — думал каждый второй.
Но сработало идеально. Задача вне домена Авито, команды из разных отделов, которые в обычной жизни пересекаются редко, — и вдруг за кофе-брейком обсуждаешь не задачи поиска, а почему твоя машина в симуляторе устраивает токийский дрифт вместо того, чтобы ехать по полосе.

Вот тогда и стало окончательно понятно: игровой формат — это просто другой способ думать о сложном.
Игровой подход работает — и мы знаем это на собственном опыте
Как появился Avito Data Quest

Мы взяли повседневные задачи DS-специалистов и упаковали их в интерактивный квест. Три блока:
— базовый ML и Python — можно ли с вами разговаривать на одном языке?
— ситуативные задачи — здесь нужны опыт и интуиция, хотя иногда хватает смекалки;
— Марио — Data Scientist — да, тот самый Марио, только теперь он аналитик данных и бежит по офису Авито. Можно заработать подсказку 50 на 50.
После трёх блоков — выбор направления и хардовые вопросы по нему. Последний кейс мы намеренно сделали нетривиальным: это то, что заставляет по-настоящему думать, а не просто вспоминать.
Маленький честный спойлер: часть вопросов мы используем на реальных собеседованиях. Так что это не просто квиз — это что-то вроде демо-режима перед интервью, только без стресса и галстука.
Почему именно Марио?

Потому что мы его любим. Но раз уж вы айтишники — вот факт, который всё объясняет: оригинальная игра помещалась на картридже объемом 40 килобайт (32 КБ на код, 8 КБ на графику). Это меньше, чем весит средняя иконка приложения. При этом — свыше 50 миллионов проданных копий, а вся серия вплотную подходит к отметке 1 миллиард.
Красивое инженерное решение в рамках жёстких ограничений. Звучит знакомо?
Что в итоге?

Пять победителей получат мерч AvitoTech. Подведение итогов — 20 марта.
Но честно: мы запомним не только победителей. Нетривиальное мышление и неожиданный ход — это именно то, за чем мы вообще следим. Немедленный оффер не обещаем. Хотя, как показал наш выезд, из спонтанных идей иногда вырастает кое-что интересное.
