Comments / Profile of olezhkapetrov / Habr

R&D

Profile Publications 2Comments 7Bookmarks 17

olezhkapetrov Oct 16 2020 at 14:41

С одной моделькой на все бросаться — какой-то странный фетиш. Все эти системы нацелены на решения каких-то конкретных бизнесовых задач — иногда в колл-центрах, иногда в смартфонах, иногда еще где-то. Цель — сделать решение, которое работает. Как показывает практика, есть порог WER, начиная с которого кейсы начинают решаться. Это и от домена зависит, и от сценария использования, и от много чего еще.

Что же касается ЦРТ и наших решений, то мы серьезно выросли за последние годы. Статья — достаточно наглядно это подсвечивает, спасибо авторам за приятные сердцу результаты. У нас есть прекрасная универсальная дженерал модель для всего. При этом кастомизация и тюнинг системы под конкретную задачу все еще бывают очень уместны. Уметь это делать нам тоже кажется важным.

Отмечу, что есть еще интересные способы сравниться с коллегами по цеху. Мы вот в очередной раз поучаствовали в CHiME 6 в этом году: https://chimechallenge.github.io/chime6/results.html (STC-innovations Ltd, ITMO University — наша команда).

Look

Нейросетевой синтез речи своими руками

olezhkapetrov Aug 8 2018 at 10:22

Эта архитектура начинает давать разборчивую речь довольно быстро. Но 20 тыс. итераций — это, конечно, довольно мало. Пройдите хотя бы по 150 тыс. на каждую часть.

Обратите внимание на attention plot. График должен быть диагональным, с минимальными выбросами. На то, как он должен выглядеть, можно посмотреть в оригинальном репозитории в соответствующем разделе README.md. Если у вас какой-то шум на графике после значительного количества шагов, то явно что-то пошло не так.

Ну и наконец, гиперпараметры:

max_N = 180 # Maximum number of characters.
max_T = 210 # Maximum number of mel frames.

Убедитесь, что данные, на которых вы обучаетесь, соответствуют этим ограничениям.

Look

Нейросетевой синтез речи своими руками

olezhkapetrov May 25 2018 at 15:08

Автор оригинальной реализации пробовал обучаться на аудиокнигах Ника Оффермана и Кейт Уинслет. Ссылка на примеры есть по первой ссылке.

Look

Нейросетевой синтез речи своими руками

olezhkapetrov May 25 2018 at 15:01

Спасибо за свежую статью! HTS и Festival-Festvox даже не упоминаются в Вашей статье -они уже настолько устарели?

Ну статья немного про другое. Она про то, что можно оторваться от всего, что есть в области синтеза, и сделать прямо с нуля. Благодаря машинному обучению это стало возможно.

У Ольги Яковлевой (слепая программистка) на bitray много готового материала (движок RHVoice).

Чем больше открытых данных, тем лучше.

Интересно, почему? Интонации вроде не требуют локализации и алгоритм простой: вопросительная -последний слог выше и т.д. Кроме того, в примерах синтеза окончание предложения интонацией выделяется.

Эта реализация, конечно, произносит предложение с какой-то интонацией, но задать ее сейчас не получится. Как дела? будет произнесено утвердительно.

Look

Нейросетевой синтез речи своими руками

olezhkapetrov May 18 2018 at 10:44

Использовать фонемную разметку — это следующий мой шаг. Благо у нас есть хорошие G2P модели, на которых можно экспериментировать. Они же используются и в распознавании речи.

Для каждого языка обычно используется свои списки фонем и свои транскрипторы. Полагаю, что ключевой момент тут в качестве получающейся речи. Требования к коммерческому синтезу речи очень высокие.

Look

Нейросетевой синтез речи своими руками

olezhkapetrov May 18 2018 at 10:38

По обоим пунктам согласен.

E2E не то чтобы честный. Восстанавливаем то мы спектрограмму, а ее еще в звук нужно преобразовать. По поводу скорости — я бы сказал, что пока это работает слишком медленно. Прямо вот запустил и синтезировал пока не получается, оно какое-то ощутимое время пыхтит. Конкретную скорость я не измерял и с WaveNet не сравнивал, не знаю.

Look

Нейросетевой синтез речи своими руками

olezhkapetrov May 18 2018 at 10:32

Пытается, почему же. Другое дело, что много ошибается. Но тут сказывается и недостаточность данных для обучения, всего 5 часов, и неочевидность крутилок, которые бы влияли на конкретную проблему в произнесениях.

Вот ниже в комментариях предлагают подавать на сеть сразу фонемную запись, вместо графемной. Тогда будут учитываться и степени редукции, и ударность/заударность. Придется правда делать хороший G2P.

Look