![image](https://habrastorage.org/getpro/habr/post_images/9d9/9d6/514/9d99d651464bb196bd4646afdf3c042f.webp)
Британская компания DeepMind показала новую систему преобразования текста в речь (TTS) под названием EATS. Она принимает входные данные в виде текста и переводит их в синтетическую речь, похожую на человеческую.
Процесс синтеза текста в речь сложный и включает несколько этапов обработки, таких как нормализация текста, согласованная лингвистическая адаптация, синтез mel-спектрограмм, синтез необработанных звуковых сигналов и так далее.
Хотя современные системы TTS, подобные тем, которые используются в голосовых помощниках типа Siri, могут похвастаться высокоточным синтезом речи и широким применением в реальных условиях, даже самые лучшие из них все же имеют недостатки. Каждый этап требует больших вложений, и системы не могут обучаться синтезу речи сквозным способом, как это происходит в других областях машинного обучения.
Для решения проблемы исследователи DeepMind разработали генеративную модель, обучаемую в состязательном порядке сквозным способом, которая обеспечивает производительность, сопоставимую с моделями SOTA.
Задачей EATS является сопоставление входной последовательности символов или фонем с необработанным звуком с частотой 24 кГц. EATS решает проблему неровного речевого сигнала с помощью двух подмодулей: выравнивателя, который предсказывает длительность каждого входного токена, и декодера, который увеличивает частоту выходного сигнала выравнивателя до полной звуковой частоты.
Модель EATS включает в себя:
![image](https://habrastorage.org/getpro/habr/post_images/e64/af3/23b/e64af323b7842569b49772d72dbcc79d.png)
Вся архитектура генератора является дифференцируемой и проходит сквозную подготовку. Состязательный подход позволяет ему учиться на относительно слабом контрольном сигнале, значительно снижая стоимость процесса. EATS не опирается на авторегрессионную выборку, что помогает избежать смещения экспозиции и снижения параллелизма во время вывода данных.
Исследователи оценили EATS с использованием среднего балла мнения (MOS) для измерения качества речи. В тестах все модели были обучены на наборах данных человеческой речи, которые подготовили профессиональные актеры. Пул включал 69 англоязычных текстов североамериканцев.
![image](https://habrastorage.org/getpro/habr/post_images/8fe/3c2/618/8fe3c261833655bb120e5748612fa3ef.png)
По сравнению с предыдущими моделями EATS требует значительно меньшего контроля, но все же достигает показателя MOS 4.083, приближаясь к уровню SOTA, например GAN-TTS и WaveNet.
Ранее исследователи из OpenAI показали алгоритм GPT-3, предназначенный для написания текстов на основе всего нескольких примеров. Модель обучали на 175 миллиардов параметрах или 570 гигабайтах текста. GPT-3 может отвечать на вопросы по прочитанному тексту, а также писать стихи, разгадывать анаграммы и осуществлять перевод. Ему достаточно от 10 до 100 примеров того, как выполнить действие.
См. также: