Такой режим часто используется в предсказании "сырого" текста на определённых доменах - например, CTC / RNN-T версии (не end-to-end) могут так работать. Для разметки end-to-end данных мы промптили AudioLLM писать все "паразиты" / оговорки в речи, поэтому транскрипции будут включать такие детали)
оригинал: оттепель это самое опасное время GigaAM: Оттепель — это самое опасное время. Whisper: Вот теперь это самое опасное время.
- Названия / термины
оригинал: номер рейса карши худжанд GigaAM: Номер рейса Карши Худжанд. Whisper: Номер рейса Корши-Худжанд.
- У Whisper бывают и банальные галлюцинации
оригинал: возраст пациента пятьдесят шесть лет GigaAM: Возраст пациента 56 лет. Whisper: Продолжение следует...
оригинал: а я понял когда кто то будет что то делать GigaAM: Ну, а-а, я понял, когда кто-то будет что-то делать. Whisper: Аааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааа...
GigaAM SSL можно дообучать на другие языки, но фокус у нас все же на русском. Сейчас работаем над открытым мультиязычным энкодером, следите за обновлениями!
Под доменом имеем в виду речь на русском языке из разных источников. Домены отличаются друг от друга текстом, качеством звука, спонтанностью речи, инструкцией (например, в одних доменах транскрипция содержит всю речь на записи, в других — посторонняя речь на фоне игнорируется).
Для production моделей мы учим гибридную модель (CTC + Attention Encoder-Decoder), авторегрессивный декодер позволяет лучше обучить сам энкодер, во время инференса его не используем.
Вычислительные мощности не можем раскрывать. Можно ориентироваться на статьи по SSL моделям, например, wav2vec2.0: https://arxiv.org/pdf/2006.11477. Но стоит делать поправку на то, что с момента публикации обучение было оптимизировано в несколько раз.
В SaluteSpeech API есть модели, которые поддерживают 2 языка (русский + еще один): киргизский, казахский, узбекский. Модели справляются в том числе с переключением между языками в одной фразе. Недавно рассказывали про разработку таких моделей на нашей конференции: запись доклада. Также мы работаем над open-source мультиязычной моделью
Мы использовали составной корпус аудиозаписей, собранный нами из разных источников, внутренние данные клиентов не применялись. Модели опубликованы с MIT лицензией, которая допускает коммерческое использование, датасеты не распространяем.
Для обработки данных применяли внутреннюю VAD-модель из сервисов SaluteSpeech. В ближайшее время планируем выпустить ее в открытый доступ.
Мы работаем над публикацией внутренней VAD-модели, что улучшит качество сегментации + позволит избавиться от pyannote зависимостей. На диаризацию видим запрос, рассмотрим, спасибо!
Такой режим часто используется в предсказании "сырого" текста на определённых доменах - например, CTC / RNN-T версии (не end-to-end) могут так работать. Для разметки end-to-end данных мы промптили AudioLLM писать все "паразиты" / оговорки в речи, поэтому транскрипции будут включать такие детали)
Конечно! Мы как раз проводили сравнение с Whisper-large-v3 в формате side-by-side.
Вот несколько примеров оттуда
- Чаще всего Whisper хуже в точности распознавания
оригинал: салют включи земфира
GigaAM: Салют, включи Земфира.
Whisper: Савит киши зимки рейсканы.
оригинал: странная ты девушка тамара
GigaAM: Странная ты девушка — Тамара.
Whisper: Сторона этой девушки, Тамара.
оригинал: отметь на карте дорожные работы
GigaAM: Отметь на карте дорожные работы.
Whisper: Отметь на карте дорожной работы.
- Лучшее понимание языка влияет и на пунктуацию
оригинал: наше золото звенящие голоса
GigaAM: Наше золото — звенящие голоса.
Whisper: Наше золото, звенящие голоса.
оригинал: оттепель это самое опасное время
GigaAM: Оттепель — это самое опасное время.
Whisper: Вот теперь это самое опасное время.
- Названия / термины
оригинал: номер рейса карши худжанд
GigaAM: Номер рейса Карши Худжанд.
Whisper: Номер рейса Корши-Худжанд.
- У Whisper бывают и банальные галлюцинации
оригинал: возраст пациента пятьдесят шесть лет
GigaAM: Возраст пациента 56 лет.
Whisper: Продолжение следует...
оригинал: а я понял когда кто то будет что то делать
GigaAM: Ну, а-а, я понял, когда кто-то будет что-то делать.
Whisper: Аааааааааааааааааааааааааааааааааааааааааааааааааааааааааааааа...
Мы такого сравнения не проводили, но есть независимое исследование: https://alphacephei.com/nsh/2025/04/18/russian-models.html
GigaAM SSL можно дообучать на другие языки, но фокус у нас все же на русском. Сейчас работаем над открытым мультиязычным энкодером, следите за обновлениями!
Под доменом имеем в виду речь на русском языке из разных источников. Домены отличаются друг от друга текстом, качеством звука, спонтанностью речи, инструкцией (например, в одних доменах транскрипция содержит всю речь на записи, в других — посторонняя речь на фоне игнорируется).
Для production моделей мы учим гибридную модель (CTC + Attention Encoder-Decoder), авторегрессивный декодер позволяет лучше обучить сам энкодер, во время инференса его не используем.
Вычислительные мощности не можем раскрывать. Можно ориентироваться на статьи по SSL моделям, например, wav2vec2.0: https://arxiv.org/pdf/2006.11477. Но стоит делать поправку на то, что с момента публикации обучение было оптимизировано в несколько раз.
В SaluteSpeech API есть модели, которые поддерживают 2 языка (русский + еще один): киргизский, казахский, узбекский. Модели справляются в том числе с переключением между языками в одной фразе. Недавно рассказывали про разработку таких моделей на нашей конференции: запись доклада. Также мы работаем над open-source мультиязычной моделью
Спасибо!
Мы использовали составной корпус аудиозаписей, собранный нами из разных источников, внутренние данные клиентов не применялись. Модели опубликованы с MIT лицензией, которая допускает коммерческое использование, датасеты не распространяем.
Для обработки данных применяли внутреннюю VAD-модель из сервисов SaluteSpeech. В ближайшее время планируем выпустить ее в открытый доступ.
Мы работаем над публикацией внутренней VAD-модели, что улучшит качество сегментации + позволит избавиться от pyannote зависимостей. На диаризацию видим запрос, рассмотрим, спасибо!