Синтез эмоций. Модель вдох-выдох / Comments / Habr

whickma Jul 14 2024 at 09:15

Забавно, на картинке модели вдох-выдох, я подумал это же интонации предложения. ИИ меня убивает равным тоном, произнося предложения, содержащие разные эмоции.
Чего мне не хватает в ИИ озвучках так именно правильно расставленных ударений в словах и фразах. Чтобы не получалось построения вопроса в "кавказском" варианте: "Ты идёшь. Да?" Ровный утвердительный текст и отдельно вопрос. Например, как здесь описано https://zvukogram.com/node/vopros-akcent/
Если можно будет обучить модель за счет пауз и "силы выдоха" скорее всего ИИ озвучка станет намного качественней. Респект в начинании.

Comments 3

shares-caisson Jul 14 2024 at 08:48

Интересно. Я не большой знаток TTS, но не помню чтобы кто-то моделировал потребление кислорода человеком для генерации речи :)

iowathe3rd Jul 14 2024 at 12:36

Супер интересный пост, моя специализация от ии далека, но с каждым таким постом подумываю уйти в mlops…