Как стать автором
Обновить

Facebook показала систему преобразования текста в речь в реальном времени на CPU

Время на прочтение2 мин
Количество просмотров9K
image

Facebook создала и развернула нейронную систему преобразования текста в речь на серверах ЦП. Компания заявила, что система обеспечивает высокую эффективность вычислений и качество звука на уровне человеческой речи.

Если предыдущие системы обычно использовали графические процессоры или другое специализированное оборудование для создания высококачественной речи, то в данном случае задействованы CPU. При этом скорость синтеза выросла в 160 раз (одна секунда звука за 500 миллисекунд).

В Facebook считают, что новая нейронная система преобразования текста в речь TTS с современным качеством звука может играть важную роль в создании и масштабировании голосовых приложений, которые будут более человечными и приятными в использовании.

Система объединяет четыре компонента:

image

Лингвистический интерфейс преобразует входной текст в последовательность лингвистических функций, таких как фонемы и типы предложения. Модель просодии предсказывает ритм и мелодию для создания выразительности. Акустическая модель генерирует спектральное представление речи. Наконец, нейронный вокодер генерирует речевой сигнал 24 кГц, обусловленный просодией и спектральными характеристиками.

Модели посодии нужно всего 30–60 минут обучающих данных для разработки нового стиля голоса.

В акустической модели использовали 13-мерные характеристики MFCC, связанные с основной частотой и 5-мерной периодичностью.

Нейронный вокодер включает сверточную нейронную сеть, которая увеличивает (или расширяет) входные векторы объектов от частоты кадров (около 200 предсказаний в секунду) до частоты дискретизации (24 000 предсказаний в секунду). Плюс, в него входит рекуррентная нейронная сеть, похожая на WaveRNN, которая синтезирует аудиосэмплы авторегрессивно (или по одному сэмплу за раз) со скоростью 24000 штук в секунду.

Авторегрессионная природа нейронного вокодера требует генерации сэмплов в последовательном порядке, что делает синтез в реальном времени серьезной проблемой. Когда стартовал эксперимент Facebook, базовая система могла работать только на скорости синтеза около 80 в реальном времени (RTF) на одном ядре ЦП, генерируя одну секунду звука за 80 секунд. Тогда компания решила внедрить оптимизацию на уровне тензора и пользовательские операторы.

image

Систему уже развернули на Portal, устройстве Facebook для видеовызовов, она также доступна для использования в ряде других приложений — от сервисов чтения для слабовидящих до VR.
См. также:

Теги:
Хабы:
Всего голосов 10: ↑8 и ↓2+14
Комментарии8

Другие новости

Истории

Работа

Data Scientist
78 вакансий

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань