Как стать автором
Обновить

Синтез речи ◍ 2025: топ-4 бесплатных нейросетей для озвучки текста

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров14K
Всего голосов 25: ↑23 и ↓2+24
Комментарии30

Комментарии 30

Очень странно увидеть в заголовке "бесплатно", а в тексте исключительно платные сервисы

Они все дают бесплатно пощупать.

Гугол недавно открыл свой TTS. Там дают бесплатно 15 запросов в сутки... но прикол в том что аккаунт очень легко создать, а значит и купить пачку ключей на "черном рынке" за копейки. Сегодня попробовал им целую книгу озвучить - 8часов, получилось неплохо, надо только получше разрезать на кусочки что бы паузы между абзацами и главами были в нужных местах, ну и если сильно хочется то можно еще неправильные ударения руками исправить. Из интересного - он часто сбивается с инструкции читать монотонно и начинает эмоционировать.

https://drive.google.com/file/d/1m9WIC-mi-dgNEryl8deDJc7mfIEe0z01

зы цены у элевенлабс и аналогов - жесть даже по меркам сшанцев. 20 баксов за 250 минут ослабленной модельки :рукалецо:

8 часов это с одного акаунта или сколько? С одного аккаунта какие лимиты на длинну ?

Бесплатный лимит там 15 запросов в день по ~3000 русских символов на аккаунт, так что для озвучки 8 часов нужна большая пачка аккаунтов.

Это лимит для апи. На сайте https://aistudio.google.com/app/prompts/new_chat лимит или намного больше или его вообще нет + не надо быть программистом что бы юзать.

Через сайт генерировали? С какой скорость работало? Такое впечатление, что требуется ровно столько же, сколько звучит запись.

Через API. Простой скрипт, порезанный на куски текст по 1 отправляется на обработку с инструкцией читать монотонным голосом профессионального чтеца.

Скорость очень маленькая, около 30 символов в секунду. Можно распараллелить и ускорить это дело но можно и на лимиты нарваться и потерять ключи.

Еще можно в инструкции указать что бы читал быстро, тогда получится около 1.5х ускорение.

Kokoro причём лучше всех этих платных сервисов.

В kokoro нет русского, а английский неплохо звучит даже у старого гугла и edge.

Самый интересный из бесплатно доступных сейчас - джемини, он может орать, петь итп, говорить на 2 голоса. Тут можно поиграться, там же есть и эдж с гуглом и опенаи (который из openai.fm).

https://drive.google.com/file/d/1Yje3s0SQeBRrD2y2gwJGe2L4OS4KDDuf/view?usp=sharing

Для прослушивания книг использую на телефоне Voice Aloud Reader (https://play.google.com/store/apps/details?id=com.hyperionics.avar&hl=en-US ) - просто скармливаешь ему fb2 (можно зазипованный) и он его читает. При этом используется движок Google Voice или можно в настройках выбрать какой-то другой. Качество озвучки среднее, попадаются неправильные удаления, но в целом вполне приемлимо.

Я пользуюсь fbreader, и тоже google tts. Получше выходит чем некоторые тут примеры. Конечно практически без выражения, но привыкаешь. И мне кажется FBReader наиболее правильно нарезает части текста для озвучивания. Некоторые читалки отрезают по середине диалога, от этого странные паузы получаются в озвучке.

Я вот пытаюсь на компе запустить нейронку, попробовать подключать к телефону как tts. Сложна очень все.

Голос Дмитрий из второго сервиса, и Светлана из третьего это 146% легко узнаваемые русские голоса из бесплатно edge tts.

Очень большая помощь и перспектива для незрячих пользователей

Тема интересная, но у всех движков полная беда с тюркскими языками, кроме турецкого толком нет ничего.

К чему это статья? Ноль полезной инфы, так ещё куча следов ИИ!

Думал смогу найти синтезатор для озвучки новостей на своём сайте, как например на VC, но увы вся статья о популярных платных сервисах.

Да и цены космические, сравните полезность подписки ChatGPT за 20$ и 5 часов озвучки от недо синтезаторов.

Другое дело получить рыболовный инструмент, хоть и не топовый, за то бесплатно, и можно запустить на своём ПК, слушать книги. Так сказать замена Алисе.

В своём проекте я использую локальные модели Silero Models. Для озвучки больших текстов существует готовая обёртка speakerpy, которая автоматически разбивает текст на предложения и конвертирует числа в слова. Если нужно статьи озвучить можно через trafilatura получать текст и сразу отправлять на озвучку, книги аналогично. На моём компьютере за 15 минут генерируется примерно час аудио - этого более чем достаточно даже при прослушивании на повышенной скорости.

Из недостатков:

  1. Часто неправильно расставляются ударения (для моего проекта не критично).

  2. Поддерживаются только некоторые популярные языки (мне достаточно поддерживаемых русского и английского).

  3. Требуется предобработка и нормализация текста, так как модель работает только с символами целевого языка и текстом ограниченной длинны (можно использовать тот же speakerpy, но я написал свою утилиту по мотивам).

На гитхабе есть питоновые библиотеки для расстановки ударений. Есть даже с нейросетями. Бесплатно. Пробовал, работает норм. Если выбрать "тяжелую" модель, то даже замок от замка отличает.

Замок от замка даже чатгпт плохо отличает, не может нормально йофицировать текст. Видимо из за того что большинство русских текстов без ё.

Хм, странно, на мой взгляд. Пользуюсь RHVoice, там с ёфикацией проблем нет вообще, и без всяких нейросетей.

Как с этим может не быть проблем, как не понимая смысла текста можно определить что за слово тут стоит - осёл или осел?

Видимо таких случаев в разы меньше, чем с ударениями, вот и не бросается в уши.

Ну допустим что осел встречается нечасто но как насчёт слов - все и всё?

А почему openai tts не попробовал? У него как мне показалось наилучшее качество.

Наилучшее это у ElevenLabs. У гугла вроде тоже есть хорошее качество. openai дешево, но что качественно я бы не сказал.

Вы про новые говорите версии от openai, которые в конце марта выпустили? Мне они лучше всех понравились.

Я пробовал книжку озвучить и ElevenLabs точно не впечатлил.

Все эти нейросети добавляют лишь немного интонации. Жрут немерянно, а на выходе всё те же ошибки, которые в старых движках были, неправильные ударуния и прочее. И раньше движки были открытыми, а теперь закрытые. Не нравится мне это всё.

Обучите модель на аудиокнигах Сергея Чонишвили и получите лучшего диктора для книг.

++++ Это мой любимый голос. "Как папа был маленьким" заслушана просто до дыр с ребенком. Я не знал его в лицо и визжжал, когда по голосу узнал в каком-то российском сериале ))

Большой минус шибко умных моделей (openai и gemini) в том что они тупо отказываются озвучивать запрещенку, порнографические тексты вообще никак.

Спасибо за статью. Но её оформление напрягло: примерно каждое 4 слово зачем-то выделено жирным, так что не возможно читать. Поправьте, пожалуйста, свой системный промпт для генерации статей, чтобы такого не было.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий