Facebook создала и развернула нейронную систему преобразования текста в речь на серверах ЦП. Компания заявила, что система обеспечивает высокую эффективность вычислений и качество звука на уровне человеческой речи.
Если предыдущие системы обычно использовали графические процессоры или другое специализированное оборудование для создания высококачественной речи, то в данном случае задействованы CPU. При этом скорость синтеза выросла в 160 раз (одна секунда звука за 500 миллисекунд).
В Facebook считают, что новая нейронная система преобразования текста в речь TTS с современным качеством звука может играть важную роль в создании и масштабировании голосовых приложений, которые будут более человечными и приятными в использовании.
Система объединяет четыре компонента:
Лингвистический интерфейс преобразует входной текст в последовательность лингвистических функций, таких как фонемы и типы предложения. Модель просодии предсказывает ритм и мелодию для создания выразительности. Акустическая модель генерирует спектральное представление речи. Наконец, нейронный вокодер генерирует речевой сигнал 24 кГц, обусловленный просодией и спектральными характеристиками.
Модели посодии нужно всего 30–60 минут обучающих данных для разработки нового стиля голоса.
В акустической модели использовали 13-мерные характеристики MFCC, связанные с основной частотой и 5-мерной периодичностью.
Нейронный вокодер включает сверточную нейронную сеть, которая увеличивает (или расширяет) входные векторы объектов от частоты кадров (около 200 предсказаний в секунду) до частоты дискретизации (24 000 предсказаний в секунду). Плюс, в него входит рекуррентная нейронная сеть, похожая на WaveRNN, которая синтезирует аудиосэмплы авторегрессивно (или по одному сэмплу за раз) со скоростью 24000 штук в секунду.
Авторегрессионная природа нейронного вокодера требует генерации сэмплов в последовательном порядке, что делает синтез в реальном времени серьезной проблемой. Когда стартовал эксперимент Facebook, базовая система могла работать только на скорости синтеза около 80 в реальном времени (RTF) на одном ядре ЦП, генерируя одну секунду звука за 80 секунд. Тогда компания решила внедрить оптимизацию на уровне тензора и пользовательские операторы.
Систему уже развернули на Portal, устройстве Facebook для видеовызовов, она также доступна для использования в ряде других приложений — от сервисов чтения для слабовидящих до VR.
См. также: