maybe_elf Sep 1 2021 at 13:25

Nvidia представила нейромодель генерации выразительной речи

2 min

3.5K

Nvidia на конференции Interspeech показала модель диалогового ИИ для выразительного синтеза речи, чтобы генерировать голоса для персонажей, виртуальных помощников и персонализированных аватаров. Технология позволяет имитировать ритм, интонации и тембры голосов людей.

Nvidia в исследованиях речевых технологий занимается обработкой естественного языка и распознавания речи, улучшением звука и другими направлениями. Некоторые из этих разработок имеют открытый исходный код и были созданы с помощью инструментария Nvidia NeMo, доступного в NGC и на GitHub.

Компания представила новую технологию в сфере разговорного ИИ — синтез выразительной устной речи. Творческая группа Nvidia использует эту технологию для создания выразительного повествования в серии видеороликов о способностях машинного обучения.

За последний год исследовательская группа компании по преобразованию текста в речь разработала управляемую модель синтеза речи RAD-TTS, которая использовались в демонстрации на конкурсе SIGGRAPH Real-Time Live. RAD-TTS может преобразовать любую текстовую подсказку в голос и воссоздать оригинальный голос, когда слова одного спикера пересказывает другой. Интерфейс обеспечивает точное управление на уровне кадра высотой, длительностью и энергией синтезированного голоса.

Видеопродюсер Nvidia с помощью нейромодели записал свою речь, а затем преобразовал ее в женский голос и настроил синтезированную речь, чтобы выделить определенные слова, установить темп повествования и так далее.

Возможности модели ИИ выходят за рамки простого озвучивания: преобразование текста в речь можно использовать, чтобы помочь людям с нарушениями голоса, либо, чтобы переводить с одного языка на другой. Модель также может воссоздать выступления культовых певцов.

API-интерфейсы и модели, предварительно обученные в NeMo, позволят исследователям разрабатывать и настраивать модели для преобразования текста в речь, обработки естественного языка и автоматического распознавания речи в реальном времени. Некоторые модели обучаются с использованием десятков тысяч часов аудиоданных в системах DGX. Разработчики смогут точно настроить любую модель для своих сценариев использования, ускоряя обучение с помощью вычислений со смешанной точностью на графических процессорах Tensor Core.

NeMo также предлагает модели, обученные в Mozilla Common Voice, наборе данных с почти 14 000 часов речевых данных на 76 языках.

В 2020 году Nvidia представила систему на ИИ, которая создает говорящие головы для видеоконференций из одного 2D-изображения. А недавно компания призналась, что на одной из конференций этого года выступила цифровая копия ее гендиректора Дженсена Хуанга. Разработчики воссоздали 3D-модель не только самого топ-менеджера, но и его кухни, а для работы использовали систему Nvidia Omniverse для работы в трехмерных виртуальных средах.

Tags:

Hubs: