daniilshat Dec 5 2023 at 14:54

Разработчики выпустили HierSpeech++ — модель для генерации голоса

1 min

6.2K

Machine learning*Artificial Intelligence

Исследователи Университета Корё (Южная Корея) выпустили модель машинного обучения, предназначенную для преобразования текста в голос. Производительность разработки превосходит решения на базе больших языковых моделей и диффузии.

Особенность HierSpeech++ в том, что система использует иерархическую структуру. Благодаря этому отпадает необходимость предварительного обучения. Разработчики используют возможности платформы преобразования текста в вектор для создания самоконтролируемых адресов.

Отмечается, что HierSpeech++ может стать лидером в области синтезирования речи. В системе используется система сверхвысокого разрешения аудио. Благодаря этому на выходе получаются записи в частотном диапазоне от 16 до 48 кГц.

На странице проекта доступны примеры генерации и сравнение с другими популярными моделями. Демонстрационная модель развёрнута на платформе Hugging Face. На ней можно попробовать синтез с несколькими параметрами. Код платформы опубликован в GitHub-репозитории. Для локального запуска необходимо использовать Pytorch и Torchaudio.

Tags:

Hubs:

If this publication inspired you and you want to support the author, do not hesitate to click on the button