Обновить

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.7K
Всего голосов 9: ↑8 и ↓1+10
Комментарии5

Комментарии 5

Интересно. Пробовал whisper чисто для локальной расшифровки записей с диктофона - не пошло. Не знал про другие открытые модели. Попробую их тоже.

ребят, как для gigaam распознавать часовые аудио и расставлять точки и запятые?

Вы гигаам уже используете для распознавания?
У нас проблема с загрузкой файлов до 30 МБ(даже это не загружается), хотя по документации должно.
В веб-версии всё отлично, но в апи, к сожалению иначе.

Попробуйте GigaAM-v3-e2e-CTC / RNNT. Это модели, которые распознают речь сразу с пунктуацией, числами, английскими терминами и другими знаками. Распознавать часовые аудио можно с помощью метода transcribe_longform. Вот минимальный пример:

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации