antipov_dmitry19 авг 2025 в 06:13

Бенчмарк качества распознавания речи (ASR) в телефонии: как мы сравниваемся с Whisper, GigaAM и T-One

Средний

9 мин

12K

Искусственный интеллектМашинное обучение * ЗвукBig Data * Анализ и проектирование систем *

+10

Комментарии 5

uralhi 20 авг 2025 в 05:58

Интересно. Пробовал whisper чисто для локальной расшифровки записей с диктофона - не пошло. Не знал про другие открытые модели. Попробую их тоже.

TorinoSM 23 авг 2025 в 15:05

ребят, как для gigaam распознавать часовые аудио и расставлять точки и запятые?

guschin-ae 28 авг 2025 в 07:25

Вы гигаам уже используете для распознавания?
У нас проблема с загрузкой файлов до 30 МБ(даже это не загружается), хотя по документации должно.
В веб-версии всё отлично, но в апи, к сожалению иначе.

ggospodinov 23 ноя 2025 в 14:28

Попробуйте GigaAM-v3-e2e-CTC / RNNT. Это модели, которые распознают речь сразу с пунктуацией, числами, английскими терминами и другими знаками. Распознавать часовые аудио можно с помощью метода transcribe_longform. Вот минимальный пример:

ggospodinov 23 ноя 2025 в 15:55

https://colab.research.google.com/github/salute-developers/GigaAM/blob/main/colab_example.ipynb

Зарегистрируйтесь на Хабре, чтобы оставить комментарий