Comments 3
Интересно. Я не большой знаток TTS, но не помню чтобы кто-то моделировал потребление кислорода человеком для генерации речи :)
Забавно, на картинке модели вдох-выдох, я подумал это же интонации предложения. ИИ меня убивает равным тоном, произнося предложения, содержащие разные эмоции.
Чего мне не хватает в ИИ озвучках так именно правильно расставленных ударений в словах и фразах. Чтобы не получалось построения вопроса в "кавказском" варианте: "Ты идёшь. Да?" Ровный утвердительный текст и отдельно вопрос. Например, как здесь описано https://zvukogram.com/node/vopros-akcent/
Если можно будет обучить модель за счет пауз и "силы выдоха" скорее всего ИИ озвучка станет намного качественней. Респект в начинании.
Супер интересный пост, моя специализация от ии далека, но с каждым таким постом подумываю уйти в mlops…
Синтез эмоций. Модель вдох-выдох