Как стать автором

cognitronn 21 мая в 16:24

ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)

6 мин

3.5K

Блог компании BotHubИскусственный интеллектКонтент и копирайтинг*Будущее здесьМашинное обучение*

Обзор

+4

Комментарии 9

Per_Ardua 21 мая в 21:06

Думаю, у большинства нормальных сервисов происходит определение языка на лету и подключение соответствующей дообученой модели как раз для этого конкретного языка (для виспера, кстати, тоже есть несколько ру-моделей на huggingface). Такой подход избавляет от большинства проблем. Мультиязычные модели пока не способны выдавать то же качество, что и дообученные (что не удивительно)

zbot 21 мая в 21:52

кто знает подскажите, а для обратного процесса из текста в аудио есть нейросети?

SlavikF 21 мая в 22:33

Да, называются TTS. Но большинство поддерживает ограниченный набор языков.

Вот тут открытая модель с поддержкой русского:

https://huggingface.co/OuteAI/Llama-OuteTTS-1.0-1B

https://github.com/edwko/OuteTTS

poriogam 22 мая в 01:24

Их тоже миллион. Вот например из легкодоступных https://github.com/rany2/edge-tts

Из коммерческих самый известный - elevenlabs (но россиян он на порог не пускает)

akdengi 22 мая в 12:42

Ставим тот же Whisper локально и не маемся фигней. На 4060 расшифровывает со скоростью x10 бесплатно и без смс.

lynikol 22 мая в 16:56

💯Как раз у себя описал, как можно сделать

Moog_Prodigy 24 мая в 08:58

Мало того, он даже без видеокарты может работать, на цпу и рам. Медленно конечно, но работает.

milkyway044 25 мая в 20:46

Gemini 2.5 неплохо транскрибирует длинные аудио в AI Studio даром.

gfiopl8 26 мая в 01:24

И не только там. А еще есть море халявного виспера, и других.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий