cognitronn 27 мая в 16:11

Синтез речи ◍ 2025: топ-4 бесплатных нейросетей для озвучки текста

Простой

19 мин

15K

Блог компании BotHubИскусственный интеллектМашинное обучение*Будущее здесьКонтент и копирайтинг*

Обзор

+25

Комментарии 30

un1t 27 мая в 16:31

Очень странно увидеть в заголовке "бесплатно", а в тексте исключительно платные сервисы

gfiopl8 27 мая в 17:02

Они все дают бесплатно пощупать.

Гугол недавно открыл свой TTS. Там дают бесплатно 15 запросов в сутки... но прикол в том что аккаунт очень легко создать, а значит и купить пачку ключей на "черном рынке" за копейки. Сегодня попробовал им целую книгу озвучить - 8часов, получилось неплохо, надо только получше разрезать на кусочки что бы паузы между абзацами и главами были в нужных местах, ну и если сильно хочется то можно еще неправильные ударения руками исправить. Из интересного - он часто сбивается с инструкции читать монотонно и начинает эмоционировать.

https://drive.google.com/file/d/1m9WIC-mi-dgNEryl8deDJc7mfIEe0z01

зы цены у элевенлабс и аналогов - жесть даже по меркам сшанцев. 20 баксов за 250 минут ослабленной модельки :рукалецо:

un1t 28 мая в 14:32

8 часов это с одного акаунта или сколько? С одного аккаунта какие лимиты на длинну ?

poriogam 28 мая в 15:03

Бесплатный лимит там 15 запросов в день по ~3000 русских символов на аккаунт, так что для озвучки 8 часов нужна большая пачка аккаунтов.

Hopenolis 28 мая в 15:26

Это лимит для апи. На сайте https://aistudio.google.com/app/prompts/new_chat лимит или намного больше или его вообще нет + не надо быть программистом что бы юзать.

Akr0n 1 июн в 18:22

Через сайт генерировали? С какой скорость работало? Такое впечатление, что требуется ровно столько же, сколько звучит запись.

gfiopl8 2 июн в 03:53

Через API. Простой скрипт, порезанный на куски текст по 1 отправляется на обработку с инструкцией читать монотонным голосом профессионального чтеца.

Скорость очень маленькая, около 30 символов в секунду. Можно распараллелить и ускорить это дело но можно и на лимиты нарваться и потерять ключи.

Еще можно в инструкции указать что бы читал быстро, тогда получится около 1.5х ускорение.

Balling 28 мая в 01:21

Kokoro причём лучше всех этих платных сервисов.

poriogam 28 мая в 02:50

В kokoro нет русского, а английский неплохо звучит даже у старого гугла и edge.

Самый интересный из бесплатно доступных сейчас - джемини, он может орать, петь итп, говорить на 2 голоса. Тут можно поиграться, там же есть и эдж с гуглом и опенаи (который из openai.fm).

https://drive.google.com/file/d/1Yje3s0SQeBRrD2y2gwJGe2L4OS4KDDuf/view?usp=sharing

hssergey 27 мая в 17:21

Для прослушивания книг использую на телефоне Voice Aloud Reader (https://play.google.com/store/apps/details?id=com.hyperionics.avar&hl=en-US ) - просто скармливаешь ему fb2 (можно зазипованный) и он его читает. При этом используется движок Google Voice или можно в настройках выбрать какой-то другой. Качество озвучки среднее, попадаются неправильные удаления, но в целом вполне приемлимо.

gsaw 27 мая в 17:43

Я пользуюсь fbreader, и тоже google tts. Получше выходит чем некоторые тут примеры. Конечно практически без выражения, но привыкаешь. И мне кажется FBReader наиболее правильно нарезает части текста для озвучивания. Некоторые читалки отрезают по середине диалога, от этого странные паузы получаются в озвучке.

Я вот пытаюсь на компе запустить нейронку, попробовать подключать к телефону как tts. Сложна очень все.

poriogam 27 мая в 18:04

Голос Дмитрий из второго сервиса, и Светлана из третьего это 146% легко узнаваемые русские голоса из бесплатно edge tts.

Margutoop 27 мая в 18:28

Очень большая помощь и перспектива для незрячих пользователей

DikSoft 27 мая в 19:03

Тема интересная, но у всех движков полная беда с тюркскими языками, кроме турецкого толком нет ничего.

hoaken0 27 мая в 19:30

К чему это статья? Ноль полезной инфы, так ещё куча следов ИИ!

Думал смогу найти синтезатор для озвучки новостей на своём сайте, как например на VC, но увы вся статья о популярных платных сервисах.

Да и цены космические, сравните полезность подписки ChatGPT за 20$ и 5 часов озвучки от недо синтезаторов.

Другое дело получить рыболовный инструмент, хоть и не топовый, за то бесплатно, и можно запустить на своём ПК, слушать книги. Так сказать замена Алисе.

SnakeSolid 27 мая в 21:35

В своём проекте я использую локальные модели Silero Models. Для озвучки больших текстов существует готовая обёртка speakerpy, которая автоматически разбивает текст на предложения и конвертирует числа в слова. Если нужно статьи озвучить можно через trafilatura получать текст и сразу отправлять на озвучку, книги аналогично. На моём компьютере за 15 минут генерируется примерно час аудио - этого более чем достаточно даже при прослушивании на повышенной скорости.

Из недостатков:

Часто неправильно расставляются ударения (для моего проекта не критично).
Поддерживаются только некоторые популярные языки (мне достаточно поддерживаемых русского и английского).
Требуется предобработка и нормализация текста, так как модель работает только с символами целевого языка и текстом ограниченной длинны (можно использовать тот же speakerpy, но я написал свою утилиту по мотивам).

Biga 27 мая в 23:06

На гитхабе есть питоновые библиотеки для расстановки ударений. Есть даже с нейросетями. Бесплатно. Пробовал, работает норм. Если выбрать "тяжелую" модель, то даже замок от замка отличает.

d-sh 28 мая в 02:40

Замок от замка даже чатгпт плохо отличает, не может нормально йофицировать текст. Видимо из за того что большинство русских текстов без ё.

Biga 28 мая в 11:17

Хм, странно, на мой взгляд. Пользуюсь RHVoice, там с ёфикацией проблем нет вообще, и без всяких нейросетей.

poriogam 28 мая в 12:54

Как с этим может не быть проблем, как не понимая смысла текста можно определить что за слово тут стоит - осёл или осел?

Biga 28 мая в 13:31

Видимо таких случаев в разы меньше, чем с ударениями, вот и не бросается в уши.

poriogam 28 мая в 13:56

Ну допустим что осел встречается нечасто но как насчёт слов - все и всё?

FifthLeg 28 мая в 01:03

А почему openai tts не попробовал? У него как мне показалось наилучшее качество.

un1t 28 мая в 14:11

Наилучшее это у ElevenLabs. У гугла вроде тоже есть хорошее качество. openai дешево, но что качественно я бы не сказал.

FifthLeg 28 мая в 15:03

Вы про новые говорите версии от openai, которые в конце марта выпустили? Мне они лучше всех понравились.

Я пробовал книжку озвучить и ElevenLabs точно не впечатлил.

Kogolbok 28 мая в 06:42

Все эти нейросети добавляют лишь немного интонации. Жрут немерянно, а на выходе всё те же ошибки, которые в старых движках были, неправильные ударуния и прочее. И раньше движки были открытыми, а теперь закрытые. Не нравится мне это всё.

HumanBearPig 28 мая в 07:28

Обучите модель на аудиокнигах Сергея Чонишвили и получите лучшего диктора для книг.

a3aquB 5 июн в 13:20

++++ Это мой любимый голос. "Как папа был маленьким" заслушана просто до дыр с ребенком. Я не знал его в лицо и визжжал, когда по голосу узнал в каком-то российском сериале ))

poriogam 28 мая в 07:36

Большой минус шибко умных моделей (openai и gemini) в том что они тупо отказываются озвучивать запрещенку, порнографические тексты вообще никак.

Yurii_Kostyukov 28 мая в 16:39

Спасибо за статью. Но её оформление напрягло: примерно каждое 4 слово зачем-то выделено жирным, так что не возможно читать. Поправьте, пожалуйста, свой системный промпт для генерации статей, чтобы такого не было.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий