proxy3d13 июл 2024 в 18:36

Синтез эмоций. Модель вдох-выдох

Простой

3 мин

7.6K

Python * Алгоритмы * Машинное обучение * Звук

Из песочницы

+29

Комментарии 4

shares-caisson 14 июл 2024 в 08:48

Интересно. Я не большой знаток TTS, но не помню чтобы кто-то моделировал потребление кислорода человеком для генерации речи :)

whickma 14 июл 2024 в 09:15

Забавно, на картинке модели вдох-выдох, я подумал это же интонации предложения. ИИ меня убивает равным тоном, произнося предложения, содержащие разные эмоции.
Чего мне не хватает в ИИ озвучках так именно правильно расставленных ударений в словах и фразах. Чтобы не получалось построения вопроса в "кавказском" варианте: "Ты идёшь. Да?" Ровный утвердительный текст и отдельно вопрос. Например, как здесь описано https://zvukogram.com/node/vopros-akcent/
Если можно будет обучить модель за счет пауз и "силы выдоха" скорее всего ИИ озвучка станет намного качественней. Респект в начинании.

iowathe3rd 14 июл 2024 в 12:36

Супер интересный пост, моя специализация от ии далека, но с каждым таким постом подумываю уйти в mlops…

A1exMa 4 апр в 03:53

Автор шарит. Я не много понимаю в нейросетях, но зато очень хорошо понимаю влияние амбюшурной практики на голос и речь. И оно действительно огромно - если добавить этот пласт в параметры модели, голос будет звучать намноооого живее. Автору +1 в карму

Зарегистрируйтесь на Хабре, чтобы оставить комментарий