Комментарии 9
Думаю, у большинства нормальных сервисов происходит определение языка на лету и подключение соответствующей дообученой модели как раз для этого конкретного языка (для виспера, кстати, тоже есть несколько ру-моделей на huggingface). Такой подход избавляет от большинства проблем. Мультиязычные модели пока не способны выдавать то же качество, что и дообученные (что не удивительно)
кто знает подскажите, а для обратного процесса из текста в аудио есть нейросети?
Да, называются TTS. Но большинство поддерживает ограниченный набор языков.
Вот тут открытая модель с поддержкой русского:
Их тоже миллион. Вот например из легкодоступных https://github.com/rany2/edge-tts
Из коммерческих самый известный - elevenlabs (но россиян он на порог не пускает)
Ставим тот же Whisper локально и не маемся фигней. На 4060 расшифровывает со скоростью x10 бесплатно и без смс.
Gemini 2.5 неплохо транскрибирует длинные аудио в AI Studio даром.
ТОП-5 нейросетей для транскрибации аудио в текст (часть 2)