skillfactory_school 11 окт 2024 в 20:46

Что такое технология TTS, как устроена и каких сферах используется синтез речи

Средний

13 мин

4.5K

Блог компании SkillfactoryМашинное обучение*

FAQ

Комментарии 7

Dreablin 11 окт 2024 в 21:18

Как раз сейчас занимаюсь одной задачей - сделать TTS для рассказов (генерировать аудиокниги по тексту чтобы было комфортно слушать).Невзирая на большое количество Open source проектов ни один не дает приемлемого качества.
На простых предложениях может неплохо работать, но очень часто начинаются проглатывания звуков, сильно ускоренная речь. Если в качестве референса задать неторопливое чтение, то в генерации начинаются паузы по несколько секунд между словами.
Пока что лучший результат, который удалось найти у metavoice-tts.

Поделитесь опытом, у кого есть, какие проекты еще посмотреть для хорошего результата?

d-sh 12 окт 2024 в 04:15

Да вроде нет таких.

Если бы роботы могли читать книги то на условном рутрекере все книги бы имели озвучку, хотя бы от робота. Но такого нет даже близко.

У яндекса TTS стоит 1300р за 1млн символов. Книгу можно озвучить рублей за 200. Без напрягов. Вряд ли кто то сможет сделать так же "хорошо" и сильно дешевле.

Есть ттс от микрософта и гугла, вроде лучшие из того что доступно бесплатно. Если есть возможность самостоятельно расставить ударения и развернуть сокращения то универсальные (это те которые читают на любом языке) голоса от микрософта будут идеально работать, они звучат очень натурально (но плохо разворачивают сокращения и чаще ошибаются с ударениями). https://github.com/rany2/edge-tts

Dreablin 12 окт 2024 в 06:06

Насчет "все книги", это немного перебор. RTX 4090 генерирует на той же metavoice-tts секунду текста в секунду времени. При том текст надо подготовить, разбить на куски меньше ~140 символов - 1024 токена (т.е. если какое-то предложение длиннее его надо резать через llm). А еще и прослушать надо на предмет багов, возможно перегенерить часть или все. В итоге на одну книгу уйдет неделя работы

Вы дали ссылки на платные сервисы, а я ищу то что можно развернуть локально и генерить у себя локально.

Dinxor 13 окт 2024 в 14:21

Всё дело в требованиях к качеству такой озвучки. С того же рутрекера качал то ли вторую, то ли третью часть "Астровитянки", как только она появилась в формате аудиокниги (лет 12 назад). Сначала даже не понял в чём дело, но характерные ошибки в ударениях явно дали понять что это TTS. А в самом начале нулевых слушал несколько книг, в реальном времени озвучиваемых движком с голосом Николая Дигало - по нынешним временам трэш, но и комп был даже не пентиум. Помню, ещё движуха какая-то была со словарями ударений, софтом для озвучки и т.п.

Занятно, что обратная задача - речь в текст - сейчас легко решается локально, хотя на мой взгляд распознавание речи сложнее, чем её генерация.

Neitr 14 окт 2024 в 18:53

Skillfactory , вас опять подставляют, вставляя рекламу у иностранного агента и пособника украинских нацистов, финансирование которых запрещено. Своей рекламой у них вы финансируете иностранного агента и портите себе репутацию.

Проверьте свой отдел рекламы и рекламного агента, они подставляют вас финансирую украинских террористов и их сообщников и/или выводят так деньги через иностранного агента

https://youtu.be/qDuvpGA5vSw?t=333
на 5:20 таймкод.

4 месяца после прошлой вашей проверки рекламного отдела не было компрометирующей рекламы, и вот опять.
https://habr.com/ru/companies/skillfactory/articles/807993/comments/#comment_26941335
Огромные репутационные потери

skillfactory_school 15 окт 2024 в 11:34

Здравствуйте! Спасибо, что обратили внимание, проверим размещение. В целом отметим, что мы — про образование и реальный опыт, готовим специалистов в области IT и не имеем отношения к политике.

Neitr 18 окт 2024 в 15:01

Так это не политика, а законодательство и юриспруденция. Я лишь хотел помочь вам чтобы вас не подставили с нарушением закона, а вы сразу карму мене портить, просто потому что я хотел помочь и предупредить, а вы где то увидели политику вместо законодательства. Ну ОК

Зарегистрируйтесь на Хабре, чтобы оставить комментарий