Комментарии 7
Как раз сейчас занимаюсь одной задачей - сделать TTS для рассказов (генерировать аудиокниги по тексту чтобы было комфортно слушать).Невзирая на большое количество Open source проектов ни один не дает приемлемого качества.
На простых предложениях может неплохо работать, но очень часто начинаются проглатывания звуков, сильно ускоренная речь. Если в качестве референса задать неторопливое чтение, то в генерации начинаются паузы по несколько секунд между словами.
Пока что лучший результат, который удалось найти у metavoice-tts.
Поделитесь опытом, у кого есть, какие проекты еще посмотреть для хорошего результата?
Да вроде нет таких.
Если бы роботы могли читать книги то на условном рутрекере все книги бы имели озвучку, хотя бы от робота. Но такого нет даже близко.
У яндекса TTS стоит 1300р за 1млн символов. Книгу можно озвучить рублей за 200. Без напрягов. Вряд ли кто то сможет сделать так же "хорошо" и сильно дешевле.
Есть ттс от микрософта и гугла, вроде лучшие из того что доступно бесплатно. Если есть возможность самостоятельно расставить ударения и развернуть сокращения то универсальные (это те которые читают на любом языке) голоса от микрософта будут идеально работать, они звучат очень натурально (но плохо разворачивают сокращения и чаще ошибаются с ударениями). https://github.com/rany2/edge-tts
Насчет "все книги", это немного перебор. RTX 4090 генерирует на той же metavoice-tts секунду текста в секунду времени. При том текст надо подготовить, разбить на куски меньше ~140 символов - 1024 токена (т.е. если какое-то предложение длиннее его надо резать через llm). А еще и прослушать надо на предмет багов, возможно перегенерить часть или все. В итоге на одну книгу уйдет неделя работы
Вы дали ссылки на платные сервисы, а я ищу то что можно развернуть локально и генерить у себя локально.
Всё дело в требованиях к качеству такой озвучки. С того же рутрекера качал то ли вторую, то ли третью часть "Астровитянки", как только она появилась в формате аудиокниги (лет 12 назад). Сначала даже не понял в чём дело, но характерные ошибки в ударениях явно дали понять что это TTS. А в самом начале нулевых слушал несколько книг, в реальном времени озвучиваемых движком с голосом Николая Дигало - по нынешним временам трэш, но и комп был даже не пентиум. Помню, ещё движуха какая-то была со словарями ударений, софтом для озвучки и т.п.
Занятно, что обратная задача - речь в текст - сейчас легко решается локально, хотя на мой взгляд распознавание речи сложнее, чем её генерация.
Skillfactory , вас опять подставляют, вставляя рекламу у иностранного агента и пособника украинских нацистов, финансирование которых запрещено. Своей рекламой у них вы финансируете иностранного агента и портите себе репутацию.

Проверьте свой отдел рекламы и рекламного агента, они подставляют вас финансирую украинских террористов и их сообщников и/или выводят так деньги через иностранного агента
https://youtu.be/qDuvpGA5vSw?t=333
на 5:20 таймкод.
4 месяца после прошлой вашей проверки рекламного отдела не было компрометирующей рекламы, и вот опять.
https://habr.com/ru/companies/skillfactory/articles/807993/comments/#comment_26941335
Огромные репутационные потери
Здравствуйте! Спасибо, что обратили внимание, проверим размещение. В целом отметим, что мы — про образование и реальный опыт, готовим специалистов в области IT и не имеем отношения к политике.
Что такое технология TTS, как устроена и каких сферах используется синтез речи