Search
Write a publication
Pull to refresh
4
0
Send message

Опыт Звука: как реализовать рекомендательную систему аудиокниг с использованием больших языковых моделей (LLM)

Level of difficultyMedium
Reading time6 min
Views1.6K

Всем привет! На связи Дмитрий Берестнев, Chief Data Scientist в HiFi-стриминге Звук. Сегодня я расскажу о том, как мы реализовали систему подбора аудиокниг и зачем это вообще было сделано. В статье мы фокусируемся на принципе рекомендации похожих книг (а подходы для авторов в нашем случае были сделаны аналогично).

Читать далее

Лирика в IT, или как мы научились вытаскивать тексты из песен. Опыт Звука

Reading time7 min
Views1.5K

Для того чтобы пользователи музыкального стриминга могли легко находить песни по тематике и смыслу, а система рекомендаций подсказывала наиболее подходящие песни, необходим процесс извлечения лирики. Это подразумевает автоматизированное извлечение и последующий анализ текстов песен: от романтических баллад до хитов диско. Более того, это позволяет эффективно фильтровать контент для различных возрастных групп.

Меня зовут Дмитрий Берестнев, я Chief Data Scientist HiFi-стриминга Звук, и сегодня расскажу, как мы реализовали распознавание лирики.

Читать далее

Data Fusion Contest. Издание 2-ое, переработанное и дополненное

Level of difficultyMedium
Reading time13 min
Views1.3K

Соревнование Data Fusion Contest 2023 в этом году состоялось во второй раз и собрало  сильнейшие индустриальные команды и отдельных любителей моделей алгоритмов машинного обучения. Кто-то участвовал впервые, а кто-то, уже умудрённый прошлым опытом был явно настроен только на победу.

В этот раз мы решили принципиально изменить задание и придумали новый формат. Что произойдет, если столкнуть лицом к лицу участников, мотивированных атаковать модели машинного обучения, с другими участниками, мотивированными свои модели защищать? Кто победит, каким окажется тот стек моделей и подходов, который приведет к победе? Что важнее, знания и опыт, или гибкость ума или нестандартные подходы?

Мы задали себе все эти вопросы и решили найти ответы на практике, подготовив для участников Data Fusion Contest 2023 очень нестандартное и по теме и по формату соревнование по Adversarial ML с атаками на модели машинного обучения, а также с их защитой.

Давайте разбираться, что из этого получилось по факту, и какие решения предложили участники, чтобы оказаться в рядах победителей!

Читать далее

Соревнование Data Fusion Contest 2022, как это было

Reading time8 min
Views1.7K

Соревнование Data Fusion Contest 2022 завершено. Самое время вспомнить, как это было, обсудить онлайн-трансляцию финала и подробно рассмотреть наиболее интересные и яркие решения победителей и призёров во всех категориях.

В этом году участники на практике осваивали матчинг слияние данных транзакций ВТБ – ключевого организатора соревнования, и кликстримов “Ростелекома”, угадывая одних и тех же клиентов с помощью различных инструментов DS, ML и, возможно, капельки интуиции и везения. С помощью инструментов безопасного матчинга data exchange компании Platforma и наработкам ВТБ в части алгоритмов по генерации данных был сформирован синтетический датасет на обезличенных данных от ВТБ и Ростелекома. При этом данные генерировались таким образом, чтобы сохранить необходимую для решения задачи информацию о пользовательском поведении.

Регистрация была открыта с 3 февраля до 15 мая, и уже в ночь с 16 на 17 мая нам были известны победители.

Для участников были проведены тематические воркшопы и митапы. Такие встречи полезны не только для общего развития и будущих проектов, но и для решения конкретных задач прямо здесь и сейчас. Например, на одном из митапов авторы задачи Matching рассказали про основные подходы к решению, разобрали бейзлайн и даже подкинули пару предложений для его улучшения, а на другой встрече участники обсуждали публичные решения и делились своими идеями.

Подобные мероприятия повысили шансы участников не только на победу, но и на получение памятного мерча, ведь в нашем соревновании призы давались как за места на лидерборде, так и за активность.

Читать далее

Information

Rating
Does not participate
Works in
Registered
Activity