Обновить
2
0
Александр Куцаков@askutsakov

Пользователь

Отправить сообщение

Такой режим часто используется в предсказании "сырого" текста на определённых доменах - например, CTC / RNN-T версии (не end-to-end) могут так работать. Для разметки end-to-end данных мы промптили AudioLLM писать все "паразиты" / оговорки в речи, поэтому транскрипции будут включать такие детали)

Конечно! Мы как раз проводили сравнение с Whisper-large-v3 в формате side-by-side.
Вот несколько примеров оттуда

- Чаще всего Whisper хуже в точности распознавания

оригинал: салют включи земфира
GigaAM: Салют, включи Земфира.
Whisper: Савит киши зимки рейсканы.

оригинал: странная ты девушка тамара
GigaAM: Странная ты девушка — Тамара.
Whisper: Сторона этой девушки, Тамара.


оригинал: отметь на карте дорожные работы
GigaAM: Отметь на карте дорожные работы.
Whisper: Отметь на карте дорожной работы.

- Лучшее понимание языка влияет и на пунктуацию

оригинал: наше золото звенящие голоса
GigaAM: Наше золото — звенящие голоса.
Whisper: Наше золото, звенящие голоса.

оригинал: оттепель это самое опасное время
GigaAM: Оттепель — это самое опасное время.
Whisper: Вот теперь это самое опасное время.


- Названия / термины

оригинал: номер рейса карши худжанд
GigaAM: Номер рейса Карши Худжанд.
Whisper: Номер рейса Корши-Худжанд.


- У Whisper бывают и банальные галлюцинации

оригинал: возраст пациента пятьдесят шесть лет
GigaAM: Возраст пациента 56 лет.
Whisper: Продолжение следует...

оригинал: а я понял когда кто то будет что то делать
GigaAM: Ну, а-а, я понял, когда кто-то будет что-то делать.
Whisper: Аааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааа...

Мы такого сравнения не проводили, но есть независимое исследование: https://alphacephei.com/nsh/2025/04/18/russian-models.html

GigaAM SSL можно дообучать на другие языки, но фокус у нас все же на русском. Сейчас работаем над открытым мультиязычным энкодером, следите за обновлениями!

Под доменом имеем в виду речь на русском языке из разных источников. Домены отличаются друг от друга текстом, качеством звука, спонтанностью речи, инструкцией (например, в одних доменах транскрипция содержит всю речь на записи, в других — посторонняя речь на фоне игнорируется).

Для production моделей мы учим гибридную модель (CTC + Attention Encoder-Decoder), авторегрессивный декодер позволяет лучше обучить сам энкодер, во время инференса его не используем.

Вычислительные мощности не можем раскрывать. Можно ориентироваться на статьи по SSL моделям, например, wav2vec2.0: https://arxiv.org/pdf/2006.11477. Но стоит делать поправку на то, что с момента публикации обучение было оптимизировано в несколько раз.

В SaluteSpeech API есть модели, которые поддерживают 2 языка (русский + еще один): киргизский, казахский, узбекский. Модели справляются в том числе с переключением между языками в одной фразе. Недавно рассказывали про разработку таких моделей на нашей конференции: запись доклада. Также мы работаем над open-source мультиязычной моделью

Спасибо!

Мы использовали составной корпус аудиозаписей, собранный нами из разных источников, внутренние данные клиентов не применялись. Модели опубликованы с MIT лицензией, которая допускает коммерческое использование, датасеты не распространяем.

Для обработки данных применяли внутреннюю VAD-модель из сервисов SaluteSpeech. В ближайшее время планируем выпустить ее в открытый доступ.

Мы работаем над публикацией внутренней VAD-модели, что улучшит качество сегментации + позволит избавиться от pyannote зависимостей. На диаризацию видим запрос, рассмотрим, спасибо!

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

ML разработчик