Как стать автором
Обновить

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

Время на прочтение6 мин
Количество просмотров3.4K
Всего голосов 6: ↑5 и ↓1+4
Комментарии9

Комментарии 9

Думаю, у большинства нормальных сервисов происходит определение языка на лету и подключение соответствующей дообученой модели как раз для этого конкретного языка (для виспера, кстати, тоже есть несколько ру-моделей на huggingface). Такой подход избавляет от большинства проблем. Мультиязычные модели пока не способны выдавать то же качество, что и дообученные (что не удивительно)

кто знает подскажите, а для обратного процесса из текста в аудио есть нейросети?

Их тоже миллион. Вот например из легкодоступных https://github.com/rany2/edge-tts

Из коммерческих самый известный - elevenlabs (но россиян он на порог не пускает)

💯Как раз у себя описал, как можно сделать

Мало того, он даже без видеокарты может работать, на цпу и рам. Медленно конечно, но работает.

Gemini 2.5 неплохо транскрибирует длинные аудио в AI Studio даром.

И не только там. А еще есть море халявного виспера, и других.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий