Обновить

Whisper или GigaAM для русского ASR в продакшене: три ловушки бенчмарка, которые перевернут ваши выводы

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели4.6K
Всего голосов 6: ↑6 и ↓0+9
Комментарии4

Комментарии 4

Круто! А как вы добились такой точности распознавания?

Если в одну фразу - не мешать моделям работать.

  1. Не «улучшайте» аудио до распознавания.

  2. Не режьте длинное аудио на чанки.

  3. Отключите внутренний VAD Whisper.

Сверху - дообучение под домен. У нас это coriollon/whisper-large-v3-turbo-russian, еще минус 3.82 pp к усреднённому WER.

На любом корпусе сначала меряйте улучшения на 3–5 клипах, прежде чем добавлять в прод

Вот этот момент не очень понятен. Если запланировано распознавание на лету разных конференций, то качество будет разным в зависимости от гарнитуры, локаций собеседников и еще много каких факторов. Это жене предзаписанные тексты, которые можно сложить в папку и играться с ними. Так что не понятно что заранее измерять...

Пункт чек-листа универсальный: любое «улучшение» конвейера проверяется на данных перед включением в прод.

Нет своего корпуса - берёте открытый, ближайший к задаче. Для конференций подходят SOVA RuDevices, Golos crowd. На их клипах сравниваете модель с предобработкой и без - направление видно уже на первых тестовых клипах.

Появится прод-материал - собирайте свой корпус. С разными микрофонами, локациями, любыми другими факторами - только на таком корпусе становится видно, какие фичи реально работают, а какие лишние. Сторонний бенчмарк отвечает на вопрос «какая модель/обработка сильнее в среднем», свой корпус — «какая работает у меня».

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации