Комментарии 5
Интересно. Пробовал whisper чисто для локальной расшифровки записей с диктофона - не пошло. Не знал про другие открытые модели. Попробую их тоже.
ребят, как для gigaam распознавать часовые аудио и расставлять точки и запятые?
Вы гигаам уже используете для распознавания?
У нас проблема с загрузкой файлов до 30 МБ(даже это не загружается), хотя по документации должно.
В веб-версии всё отлично, но в апи, к сожалению иначе.
Попробуйте GigaAM-v3-e2e-CTC / RNNT. Это модели, которые распознают речь сразу с пунктуацией, числами, английскими терминами и другими знаками. Распознавать часовые аудио можно с помощью метода transcribe_longform. Вот минимальный пример:
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One