Европейские учёные ускорили обучение ИИ-рекомендаций в 60 раз с помощью российского датасета Yambda / Хабр

Исследователи из Амстердамского университета представили метод, который ускоряет обучение современных рекомендательных систем в десятки раз без потери качества. Наиболее впечатляющие результаты были достигнуты благодаря тестированию на российском датасете Yambda. Ускорение составило почти 60 раз. Об этом информационной службе Хабра сообщила пресс-служба «Яндекса».

Yambda является одним из крупнейших в мире публичных наборов данных. Он включает почти 5 млрд обезличенных событий из «Яндекс Музыки». «Яндекс» выложил датасет в открытый доступ в 2025 году. Набор данных стал важным инструментом для тестирования ИИ-рекомендаций на реальных промышленных масштабах.

Работа посвящена улучшению модели Seater. Это система рекомендаций, которая применяется для подбора товаров, музыки и другого контента в онлайн-сервисах. В отличие от традиционных алгоритмов, выбирающих объекты из готового списка, Seater организует все товары или треки в иерархический каталог. Он похож на дерево «папок» на компьютере. Похожие объекты оказываются в соседних «папках». Это позволяет системе быстрее и точнее выдавать рекомендации.

Главной проблемой этого подхода была медленная подготовка такого «дерева-каталога» перед обучением модели. При масштабах в сотни тысяч позиций этот этап занимал до 20% всего времени обучения. В реальных продуктах это мешало часто обновлять рекомендации и быстро реагировать на изменения пользовательских предпочтений.

Чтобы устранить это ограничение, учёные предложили два более быстрых способа подготовки данных. Первый делает ставку на максимальную скорость и распределяет объекты по «папкам» без тщательной подгонки. Второй сочетает быстрый начальный этап с более точной доработкой внутри небольших групп.

Новые методы проверили на нескольких наборах данных. Среди них были отзывы пользователей Yelp, рекомендации книг Amazon и новостные клики Microsoft. Однако именно российский датасет Yambda стал ключевым в тестировании. Благодаря своему масштабу он позволил в полной мере раскрыть потенциал новых алгоритмов.

На небольших датасетах выигрыш во времени был заметен, но не столь значителен. На Yambda он оказался максимальным. Быстрый метод сократил время подготовки данных с 82 минут до 83 секунд. Это почти в 60 раз быстрее. При этом качество рекомендаций осталось практически на прежнем уровне. Это доказало, что новый подход критически важен именно для больших систем.

Комбинированный подход ускорил процесс примерно в 15 раз. Он даже улучшил точность рекомендаций по сравнению с исходной версией модели. Эксперимент на Yambda подтвердил лидерство Seater. Оба улучшенных метода превосходят по точности популярные системы SASRec, BERT4Rec и GRU4Rec на 13–17%. Они демонстрируют свою эффективность на реалистичных промышленных данных.

Авторы отмечают, что эксперимент с Yambda позволил доказать практическую применимость генеративных рекомендательных систем на очень больших каталогах. Такие решения особенно актуальны для музыкальных сервисов, интернет‑магазинов и новостных платформ. Там важно быстро обновлять рекомендации для миллионов пользователей.

Работа голландских учёных с российским датасетом наглядно демонстрирует практическую ценность открытых данных для ускорения разработки ИИ‑рекомендаций. Долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен. «Яндекс» одним из первых устранил этот разрыв, открыв Yambda. Компания предоставила уникальный инструмент для глобального прорыва в этой области. Весь код улучшенной модели Seater был выложен в открытый доступ. Предложенные улучшения уже можно использовать и развивать в реальных продуктах.