Как стать автором
Обновить
5
0

Пользователь

Отправить сообщение

Многоязычный синтез речи с клонированием

Время на прочтение5 мин
Количество просмотров44K

Хотя нейронные сети стали использоваться для синтеза речи не так давно (например), они уже успели обогнать классические подходы и с каждым годам испытывают на себе всё новые и новый задачи.


Например, пару месяцев назад появилась реализация синтеза речи с голосовым клонированием Real-Time-Voice-Cloning. Давайте попробуем разобраться из чего она состоит и реализуем свою многоязычную (русско-английскую) фонемную модель.


Строение



Наша модель будет состоять из четырёх нейронных сетей. Первая будет преобразовывать текст в фонемы (g2p), вторая — преобразовывать речь, которую мы хотим клонировать, в вектор признаков (чисел). Третья — будет на основе выходов первых двух синтезировать Mel спектрограммы. И, наконец, четвертая будет из спектрограмм получать звук.

Всего голосов 33: ↑31 и ↓2+29
Комментарии7

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Backend Developer, Game Developer
От 1 000 $
Python
Git
OOP
Database
SQL
English
Software development
Algorithms and data structures
Object-oriented design
Visual Studio