Комментарии 30
Очень странно увидеть в заголовке "бесплатно", а в тексте исключительно платные сервисы
Они все дают бесплатно пощупать.
Гугол недавно открыл свой TTS. Там дают бесплатно 15 запросов в сутки... но прикол в том что аккаунт очень легко создать, а значит и купить пачку ключей на "черном рынке" за копейки. Сегодня попробовал им целую книгу озвучить - 8часов, получилось неплохо, надо только получше разрезать на кусочки что бы паузы между абзацами и главами были в нужных местах, ну и если сильно хочется то можно еще неправильные ударения руками исправить. Из интересного - он часто сбивается с инструкции читать монотонно и начинает эмоционировать.
https://drive.google.com/file/d/1m9WIC-mi-dgNEryl8deDJc7mfIEe0z01
зы цены у элевенлабс и аналогов - жесть даже по меркам сшанцев. 20 баксов за 250 минут ослабленной модельки :рукалецо:
8 часов это с одного акаунта или сколько? С одного аккаунта какие лимиты на длинну ?
Бесплатный лимит там 15 запросов в день по ~3000 русских символов на аккаунт, так что для озвучки 8 часов нужна большая пачка аккаунтов.
Это лимит для апи. На сайте https://aistudio.google.com/app/prompts/new_chat лимит или намного больше или его вообще нет + не надо быть программистом что бы юзать.
Через сайт генерировали? С какой скорость работало? Такое впечатление, что требуется ровно столько же, сколько звучит запись.
Через API. Простой скрипт, порезанный на куски текст по 1 отправляется на обработку с инструкцией читать монотонным голосом профессионального чтеца.
Скорость очень маленькая, около 30 символов в секунду. Можно распараллелить и ускорить это дело но можно и на лимиты нарваться и потерять ключи.
Еще можно в инструкции указать что бы читал быстро, тогда получится около 1.5х ускорение.
Kokoro причём лучше всех этих платных сервисов.
В kokoro нет русского, а английский неплохо звучит даже у старого гугла и edge.
Самый интересный из бесплатно доступных сейчас - джемини, он может орать, петь итп, говорить на 2 голоса. Тут можно поиграться, там же есть и эдж с гуглом и опенаи (который из openai.fm).

https://drive.google.com/file/d/1Yje3s0SQeBRrD2y2gwJGe2L4OS4KDDuf/view?usp=sharing
Для прослушивания книг использую на телефоне Voice Aloud Reader (https://play.google.com/store/apps/details?id=com.hyperionics.avar&hl=en-US ) - просто скармливаешь ему fb2 (можно зазипованный) и он его читает. При этом используется движок Google Voice или можно в настройках выбрать какой-то другой. Качество озвучки среднее, попадаются неправильные удаления, но в целом вполне приемлимо.
Я пользуюсь fbreader, и тоже google tts. Получше выходит чем некоторые тут примеры. Конечно практически без выражения, но привыкаешь. И мне кажется FBReader наиболее правильно нарезает части текста для озвучивания. Некоторые читалки отрезают по середине диалога, от этого странные паузы получаются в озвучке.
Я вот пытаюсь на компе запустить нейронку, попробовать подключать к телефону как tts. Сложна очень все.
Голос Дмитрий из второго сервиса, и Светлана из третьего это 146% легко узнаваемые русские голоса из бесплатно edge tts.
Очень большая помощь и перспектива для незрячих пользователей
Тема интересная, но у всех движков полная беда с тюркскими языками, кроме турецкого толком нет ничего.
К чему это статья? Ноль полезной инфы, так ещё куча следов ИИ!
Думал смогу найти синтезатор для озвучки новостей на своём сайте, как например на VC, но увы вся статья о популярных платных сервисах.
Да и цены космические, сравните полезность подписки ChatGPT за 20$ и 5 часов озвучки от недо синтезаторов.
Другое дело получить рыболовный инструмент, хоть и не топовый, за то бесплатно, и можно запустить на своём ПК, слушать книги. Так сказать замена Алисе.
В своём проекте я использую локальные модели Silero Models. Для озвучки больших текстов существует готовая обёртка speakerpy, которая автоматически разбивает текст на предложения и конвертирует числа в слова. Если нужно статьи озвучить можно через trafilatura получать текст и сразу отправлять на озвучку, книги аналогично. На моём компьютере за 15 минут генерируется примерно час аудио - этого более чем достаточно даже при прослушивании на повышенной скорости.
Из недостатков:
Часто неправильно расставляются ударения (для моего проекта не критично).
Поддерживаются только некоторые популярные языки (мне достаточно поддерживаемых русского и английского).
Требуется предобработка и нормализация текста, так как модель работает только с символами целевого языка и текстом ограниченной длинны (можно использовать тот же speakerpy, но я написал свою утилиту по мотивам).
На гитхабе есть питоновые библиотеки для расстановки ударений. Есть даже с нейросетями. Бесплатно. Пробовал, работает норм. Если выбрать "тяжелую" модель, то даже замок от замка отличает.
А почему openai tts не попробовал? У него как мне показалось наилучшее качество.
Все эти нейросети добавляют лишь немного интонации. Жрут немерянно, а на выходе всё те же ошибки, которые в старых движках были, неправильные ударуния и прочее. И раньше движки были открытыми, а теперь закрытые. Не нравится мне это всё.
Обучите модель на аудиокнигах Сергея Чонишвили и получите лучшего диктора для книг.
Большой минус шибко умных моделей (openai и gemini) в том что они тупо отказываются озвучивать запрещенку, порнографические тексты вообще никак.
Спасибо за статью. Но её оформление напрягло: примерно каждое 4 слово зачем-то выделено жирным, так что не возможно читать. Поправьте, пожалуйста, свой системный промпт для генерации статей, чтобы такого не было.
Синтез речи ◍ 2025: топ-4 бесплатных нейросетей для озвучки текста