Как стать автором
Обновить

В «Яндексе» разработали и выложили в опенсорс один из крупнейших в мире датасетов для развития рекомендательных систем

Время на прочтение2 мин
Количество просмотров4K

Исследователи из «Яндекса» разработали и выложили в открытом доступе один из крупнейших в мире датасетов для развития рекомендательных систем под названием Yambda (YAndex Music Billion-interactions DAtaset).

С помощью Yambda учёные, исследователи и вузы со всего мира смогут тестировать и улучшать рекомендательные алгоритмы.

Датасет представлен в трёх вариантах: полная версия содержит 5 миллиардов данных, уменьшенные — 500 миллионов и 50 миллионов. Разработчики и исследователи смогут выбрать тот вариант, который отвечает их задаче и имеющимся вычислительным ресурсам. Данные датасета и код для замеров доступны на HuggingFace.

«Рекомендательные алгоритмы помогают людям находить нужные товары, фильмы, музыку и многое другое — именно они лежат в основе сервисов от интернет‑магазинов до онлайн‑кинотеатров. Развитие этих алгоритмов напрямую зависит от научных исследований, для которых нужны качественные и объёмные датасеты. При этом опенсорс‑датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют. Это создаёт разрыв между академическими исследованиями и потребностями бизнеса.

Публикация больших открытых датасетов наподобие Yambda помогает решить эту проблему, подобно тому как появление датасета ImageNet дало мощный толчок развитию компьютерного зрения. На данных ImageNet архитектура глубокого обучения AlexNet достигла рекордно низкого показателя ошибки и доказала эффективность применения свёрточных нейронных сетей для обработки изображений, что стало ключевым моментом в развитии технологий глубокого обучения.

Доступ к качественным большим данным открывает новые возможности для научных исследований и привлекает к области внимание молодых учёных, заинтересованных в применении машинного обучения для решения актуальных задач», 

— рассказал руководитель направления по развитию качества персонализации в «Яндексе» Александр Плошкин.

В «Яндексе» пояснили, что проект Yambda создан на основе обезличенных данных «Яндекс Музыки» — подписочного музыкального сервиса в РФ. Но использовать его можно для оценки качества любых рекомендательных систем, так как в их основе лежат общие алгоритмы.

Решение Yambda включает агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков. Все данные о пользователях и треках в проекте анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность. 

Датасет включает действия одного миллиона пользователей с более чем 9 миллионами музыкальных треков из сервиса «Яндекс Музыка» — всего 4,79 миллиарда взаимодействий. Данные хранятся в формате Apache Parquet, который из коробки поддерживают библиотеки анализа данных на Python вроде Pandas и Polars.

Теги:
Хабы:
+13
Комментарии19

Другие новости

Работа

Data Scientist
50 вакансий

Ближайшие события