DeepMind представила состязательную систему преобразования текста в речь EATS / Хабр

_{Фото: deepmind.com}

Британская компания DeepMind показала новую систему преобразования текста в речь (TTS) под названием EATS. Она принимает входные данные в виде текста и переводит их в синтетическую речь, похожую на человеческую.

Процесс синтеза текста в речь сложный и включает несколько этапов обработки, таких как нормализация текста, согласованная лингвистическая адаптация, синтез mel-спектрограмм, синтез необработанных звуковых сигналов и так далее.

Хотя современные системы TTS, подобные тем, которые используются в голосовых помощниках типа Siri, могут похвастаться высокоточным синтезом речи и широким применением в реальных условиях, даже самые лучшие из них все же имеют недостатки. Каждый этап требует больших вложений, и системы не могут обучаться синтезу речи сквозным способом, как это происходит в других областях машинного обучения.

Для решения проблемы исследователи DeepMind разработали генеративную модель, обучаемую в состязательном порядке сквозным способом, которая обеспечивает производительность, сопоставимую с моделями SOTA.

Задачей EATS является сопоставление входной последовательности символов или фонем с необработанным звуком с частотой 24 кГц. EATS решает проблему неровного речевого сигнала с помощью двух подмодулей: выравнивателя, который предсказывает длительность каждого входного токена, и декодера, который увеличивает частоту выходного сигнала выравнивателя до полной звуковой частоты.

Модель EATS включает в себя:

Вся архитектура генератора является дифференцируемой и проходит сквозную подготовку. Состязательный подход позволяет ему учиться на относительно слабом контрольном сигнале, значительно снижая стоимость процесса. EATS не опирается на авторегрессионную выборку, что помогает избежать смещения экспозиции и снижения параллелизма во время вывода данных.

Исследователи оценили EATS с использованием среднего балла мнения (MOS) для измерения качества речи. В тестах все модели были обучены на наборах данных человеческой речи, которые подготовили профессиональные актеры. Пул включал 69 англоязычных текстов североамериканцев.

По сравнению с предыдущими моделями EATS требует значительно меньшего контроля, но все же достигает показателя MOS 4.083, приближаясь к уровню SOTA, например GAN-TTS и WaveNet.

Ранее исследователи из OpenAI показали алгоритм GPT-3, предназначенный для написания текстов на основе всего нескольких примеров. Модель обучали на 175 миллиардов параметрах или 570 гигабайтах текста. GPT-3 может отвечать на вопросы по прочитанному тексту, а также писать стихи, разгадывать анаграммы и осуществлять перевод. Ему достаточно от 10 до 100 примеров того, как выполнить действие.

См. также:

«Понижаем барьеры на вход в распознавание речи»

«Улучшение качества аудио в программе Google Duo при помощи WaveNetEQ»

«Люди ломаются на логике, роботы — на всем понемногу. Экзамены по русскому для NLP-моделей»