Как стать автором
Обновить

Разработчики выпустили HierSpeech++ — модель для генерации голоса

Время на прочтение1 мин
Количество просмотров7.4K

Исследователи Университета Корё (Южная Корея) выпустили модель машинного обучения, предназначенную для преобразования текста в голос. Производительность разработки превосходит решения на базе больших языковых моделей и диффузии.

Особенность HierSpeech++ в том, что система использует иерархическую структуру. Благодаря этому отпадает необходимость предварительного обучения. Разработчики используют возможности платформы преобразования текста в вектор для создания самоконтролируемых адресов.

Отмечается, что HierSpeech++ может стать лидером в области синтезирования речи. В системе используется система сверхвысокого разрешения аудио. Благодаря этому на выходе получаются записи в частотном диапазоне от 16 до 48 кГц.

На странице проекта доступны примеры генерации и сравнение с другими популярными моделями. Демонстрационная модель развёрнута на платформе Hugging Face. На ней можно попробовать синтез с несколькими параметрами. Код платформы опубликован в GitHub-репозитории. Для локального запуска необходимо использовать Pytorch и Torchaudio.

Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
Всего голосов 5: ↑4 и ↓1+6
Комментарии6

Другие новости

Работа

Data Scientist
42 вакансии

Ближайшие события