Articles / Bookmarks / Profile of AI-SHA / Habr

SALMONN — универсальная модель для всех типов аудиоданных

Medium

7 min

3.7K

Machine learning*Artificial IntelligenceКриптонит corporate blog

Человек без труда воспринимает речь на фоне тихой музыки и звуков окружающей среды. Более того, прямо во время разговора он может мысленно подпевать и реагировать на звуки. До недавнего времени нейросети так не умели. Одни были заточены на распознавание речи, другие — на обработку музыки, а третьи — на анализ различных звуковых событий. Всё изменилось с появлением работы китайских исследователей, создавших единую мультимодальную модель SALMONN. Это нейронная сеть с открытым исходным кодом, предназначенная для обработки аудиоданных любого типа: речи, музыки и различных звуков.

В этой статье мы рассказываем об особенностях SALMONN на основе научной публикации его разработчиков. Адаптировать материал помогли наши эксперты в области обработки и синтеза речи. Перевод и разбор препринта о SALMONN выполнен исследователем лаборатории больших данных и статистики компании «Криптонит» Анной Холькиной.

Ключевой идеей проекта SALMONN стала интеграция большой языковой модели (LLM) с двумя энкодерами: одним из модели Whisper для восприятия речи и другим (BEATs) для остальных звуков. В качестве предобученной LLM используется Vicuna, созданная на основе модели LLaMA с 13 миллиардами параметров и обученная на данных лучших диалогов с ChatGPT (также авторы SALMONN выпустили версию своей модели на основе Vicuna с 7 миллиардами параметров).

+10

fonkost Mar 2 2023 at 11:00

Точность — вежливость Scala’лазов: разбираем уточняющие типы данных и практику их применения

11 min

1.4K

Programming*Scala*Data Engineering*Криптонит corporate blog

Привет, Хабр! Я ведущий инженер по обработке данных в компании «Криптонит» и пишу на Scala. В этой статье хочу поделиться своим опытом и рассказать о паре лайфхаков, которые помогут избежать распространённых ошибок.

Tituch Mar 7 2023 at 10:00

Какие ашипки не ловят автотесты: интервью с багхантершами

4 min

2.6K

IT systems testing*IT careerInterviewКриптонит corporate blog

Современные профессии утрачивают «половые признаки», особенно в сфере ИТ. В команде «Криптонита» есть множество замечательных сотрудниц на самых разных должностях. К 8 Марта мы подготовили интервью с нашими охотницами на ошибки в ПО из департамента разработки. Они рассказали о буднях тестировщика и о том, как их профессиональные привычки повлияли на повседневную жизнь.

Tituch Jan 25 2023 at 12:05

Себе в 20 лет я бы посоветовал…

2 min

Studying in ITLifehacks for geeksКриптонит corporate blog

Opinion

В преддверии Дня студента мы задали нашим коллегам вопрос: «А что вы бы посоветовали себе в 20 лет?». Делимся их ответами и немного скучаем по студенческим годам.

Всех, кто ещё грызёт гранит науки, поздравляем с праздником!