Pull to refresh

Разработчики выпустили HierSpeech++ — модель для генерации голоса

Reading time1 min
Views6.2K

Исследователи Университета Корё (Южная Корея) выпустили модель машинного обучения, предназначенную для преобразования текста в голос. Производительность разработки превосходит решения на базе больших языковых моделей и диффузии.

Особенность HierSpeech++ в том, что система использует иерархическую структуру. Благодаря этому отпадает необходимость предварительного обучения. Разработчики используют возможности платформы преобразования текста в вектор для создания самоконтролируемых адресов.

Отмечается, что HierSpeech++ может стать лидером в области синтезирования речи. В системе используется система сверхвысокого разрешения аудио. Благодаря этому на выходе получаются записи в частотном диапазоне от 16 до 48 кГц.

На странице проекта доступны примеры генерации и сравнение с другими популярными моделями. Демонстрационная модель развёрнута на платформе Hugging Face. На ней можно попробовать синтез с несколькими параметрами. Код платформы опубликован в GitHub-репозитории. Для локального запуска необходимо использовать Pytorch и Torchaudio.

Tags:
Hubs:
If this publication inspired you and you want to support the author, do not hesitate to click on the button
Total votes 5: ↑4 and ↓1+6
Comments6

Other news