Pull to refresh

Nvidia представила нейромодель генерации выразительной речи

Reading time2 min
Views3.5K

Nvidia на конференции Interspeech показала модель диалогового ИИ для выразительного синтеза речи, чтобы генерировать голоса для персонажей, виртуальных помощников и персонализированных аватаров. Технология позволяет имитировать ритм, интонации и тембры голосов людей.

Nvidia в исследованиях речевых технологий занимается обработкой естественного языка и распознавания речи, улучшением звука и другими направлениями. Некоторые из этих разработок имеют открытый исходный код и были созданы с помощью инструментария Nvidia NeMo, доступного в NGC и на GitHub.

Компания представила новую технологию в сфере разговорного ИИ — синтез выразительной устной речи. Творческая группа Nvidia использует эту технологию для создания выразительного повествования в серии видеороликов о способностях машинного обучения.

За последний год исследовательская группа компании по преобразованию текста в речь разработала управляемую модель синтеза речи RAD-TTS, которая использовались в демонстрации на конкурсе SIGGRAPH Real-Time Live. RAD-TTS может преобразовать любую текстовую подсказку в голос и воссоздать оригинальный голос, когда слова одного спикера пересказывает другой. Интерфейс обеспечивает точное управление на уровне кадра высотой, длительностью и энергией синтезированного голоса.

Видеопродюсер Nvidia с помощью нейромодели записал свою речь, а затем преобразовал ее в женский голос и настроил синтезированную речь, чтобы выделить определенные слова, установить темп повествования и так далее.

Возможности модели ИИ выходят за рамки простого озвучивания: преобразование текста в речь можно использовать, чтобы помочь людям с нарушениями голоса, либо, чтобы переводить с одного языка на другой. Модель также может воссоздать выступления культовых певцов.

API-интерфейсы и модели, предварительно обученные в NeMo, позволят исследователям разрабатывать и настраивать модели для преобразования текста в речь, обработки естественного языка и автоматического распознавания речи в реальном времени. Некоторые модели обучаются с использованием десятков тысяч часов аудиоданных в системах DGX. Разработчики смогут точно настроить любую модель для своих сценариев использования, ускоряя обучение с помощью вычислений со смешанной точностью на графических процессорах Tensor Core.

NeMo также предлагает модели, обученные в Mozilla Common Voice, наборе данных с почти 14 000 часов речевых данных на 76 языках. 

В 2020 году Nvidia представила систему на ИИ, которая создает говорящие головы для видеоконференций из одного 2D-изображения. А недавно компания призналась, что на одной из конференций этого года выступила цифровая копия ее гендиректора Дженсена Хуанга. Разработчики воссоздали 3D-модель не только самого топ-менеджера, но и его кухни, а для работы использовали систему Nvidia Omniverse для работы в трехмерных виртуальных средах.

Tags:
Hubs:
Total votes 12: ↑12 and ↓0+12
Comments6

Other news