Как стать автором
Обновить

Комментарии 3

Интересно. Я не большой знаток TTS, но не помню чтобы кто-то моделировал потребление кислорода человеком для генерации речи :)

Забавно, на картинке модели вдох-выдох, я подумал это же интонации предложения. ИИ меня убивает равным тоном, произнося предложения, содержащие разные эмоции.
Чего мне не хватает в ИИ озвучках так именно правильно расставленных ударений в словах и фразах. Чтобы не получалось построения вопроса в "кавказском" варианте: "Ты идёшь. Да?" Ровный утвердительный текст и отдельно вопрос. Например, как здесь описано https://zvukogram.com/node/vopros-akcent/
Если можно будет обучить модель за счет пауз и "силы выдоха" скорее всего ИИ озвучка станет намного качественней. Респект в начинании.

Супер интересный пост, моя специализация от ии далека, но с каждым таким постом подумываю уйти в mlops…

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории