Pull to refresh
25
5
Send message

SALMONN — универсальная модель для всех типов аудиоданных

Level of difficultyMedium
Reading time7 min
Views3.7K

Человек без труда воспринимает речь на фоне тихой музыки и звуков окружающей среды. Более того, прямо во время разговора он может мысленно подпевать и реагировать на звуки. До недавнего времени нейросети так не умели. Одни были заточены на распознавание речи, другие — на обработку музыки, а третьи — на анализ различных звуковых событий. Всё изменилось с появлением работы китайских исследователей, создавших единую мультимодальную модель SALMONN. Это нейронная сеть с открытым исходным кодом, предназначенная для обработки аудиоданных любого типа: речи, музыки и различных звуков.

В этой статье мы рассказываем об особенностях SALMONN на основе научной публикации его разработчиков.  Адаптировать материал помогли наши эксперты в области обработки и синтеза речи. Перевод и разбор препринта о SALMONN выполнен исследователем лаборатории больших данных и статистики компании «Криптонит» Анной Холькиной.

Ключевой идеей проекта SALMONN стала интеграция большой языковой модели (LLM) с двумя энкодерами: одним из модели Whisper для восприятия речи и другим (BEATs) для остальных звуков. В качестве предобученной LLM используется Vicuna, созданная на основе модели LLaMA с 13 миллиардами параметров и обученная на данных лучших диалогов с ChatGPT (также авторы SALMONN выпустили версию своей модели на основе Vicuna с 7 миллиардами параметров).

Читать далее
Total votes 10: ↑10 and ↓0+10
Comments1

Точность — вежливость Scala’лазов: разбираем уточняющие типы данных и практику их применения

Reading time11 min
Views1.4K

Привет, Хабр! Я ведущий инженер по обработке данных в компании «Криптонит» и пишу на Scala. В этой статье хочу поделиться своим опытом и рассказать о паре лайфхаков, которые помогут избежать распространённых ошибок.

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments0

Какие ашипки не ловят автотесты: интервью с багхантершами

Reading time4 min
Views2.6K

Современные профессии утрачивают «половые признаки», особенно в сфере ИТ. В команде «Криптонита» есть множество замечательных сотрудниц на самых разных должностях. К 8 Марта мы подготовили интервью с нашими охотницами на ошибки в ПО из департамента разработки. Они рассказали о буднях тестировщика и о том, как их профессиональные привычки повлияли на повседневную жизнь.

Читать далее
Total votes 6: ↑5 and ↓1+5
Comments2

Себе в 20 лет я бы посоветовал…

Reading time2 min
Views7K

В преддверии Дня студента мы задали нашим коллегам вопрос: «А что вы бы посоветовали себе в 20 лет?». Делимся их ответами и немного скучаем по студенческим годам.

Всех, кто ещё грызёт гранит науки, поздравляем с праздником!

Читать далее
Total votes 4: ↑3 and ↓1+3
Comments25

Information

Rating
864-th
Works in
Registered
Activity