Pull to refresh
28
0
Олег Петров @olezhkapetrov

R&D

Send message
С одной моделькой на все бросаться — какой-то странный фетиш. Все эти системы нацелены на решения каких-то конкретных бизнесовых задач — иногда в колл-центрах, иногда в смартфонах, иногда еще где-то. Цель — сделать решение, которое работает. Как показывает практика, есть порог WER, начиная с которого кейсы начинают решаться. Это и от домена зависит, и от сценария использования, и от много чего еще.

Что же касается ЦРТ и наших решений, то мы серьезно выросли за последние годы. Статья — достаточно наглядно это подсвечивает, спасибо авторам за приятные сердцу результаты. У нас есть прекрасная универсальная дженерал модель для всего. При этом кастомизация и тюнинг системы под конкретную задачу все еще бывают очень уместны. Уметь это делать нам тоже кажется важным.

Отмечу, что есть еще интересные способы сравниться с коллегами по цеху. Мы вот в очередной раз поучаствовали в CHiME 6 в этом году: https://chimechallenge.github.io/chime6/results.html (STC-innovations Ltd, ITMO University — наша команда).
Эта архитектура начинает давать разборчивую речь довольно быстро. Но 20 тыс. итераций — это, конечно, довольно мало. Пройдите хотя бы по 150 тыс. на каждую часть.

Обратите внимание на attention plot. График должен быть диагональным, с минимальными выбросами. На то, как он должен выглядеть, можно посмотреть в оригинальном репозитории в соответствующем разделе README.md. Если у вас какой-то шум на графике после значительного количества шагов, то явно что-то пошло не так.

Ну и наконец, гиперпараметры:
max_N = 180 # Maximum number of characters.
max_T = 210 # Maximum number of mel frames.

Убедитесь, что данные, на которых вы обучаетесь, соответствуют этим ограничениям.
Автор оригинальной реализации пробовал обучаться на аудиокнигах Ника Оффермана и Кейт Уинслет. Ссылка на примеры есть по первой ссылке.
Спасибо за свежую статью! HTS и Festival-Festvox даже не упоминаются в Вашей статье -они уже настолько устарели?

Ну статья немного про другое. Она про то, что можно оторваться от всего, что есть в области синтеза, и сделать прямо с нуля. Благодаря машинному обучению это стало возможно.

У Ольги Яковлевой (слепая программистка) на bitray много готового материала (движок RHVoice).

Чем больше открытых данных, тем лучше.

Интересно, почему? Интонации вроде не требуют локализации и алгоритм простой: вопросительная -последний слог выше и т.д. Кроме того, в примерах синтеза окончание предложения интонацией выделяется.

Эта реализация, конечно, произносит предложение с какой-то интонацией, но задать ее сейчас не получится. Как дела? будет произнесено утвердительно.
Использовать фонемную разметку — это следующий мой шаг. Благо у нас есть хорошие G2P модели, на которых можно экспериментировать. Они же используются и в распознавании речи.

Для каждого языка обычно используется свои списки фонем и свои транскрипторы. Полагаю, что ключевой момент тут в качестве получающейся речи. Требования к коммерческому синтезу речи очень высокие.
По обоим пунктам согласен.

E2E не то чтобы честный. Восстанавливаем то мы спектрограмму, а ее еще в звук нужно преобразовать. По поводу скорости — я бы сказал, что пока это работает слишком медленно. Прямо вот запустил и синтезировал пока не получается, оно какое-то ощутимое время пыхтит. Конкретную скорость я не измерял и с WaveNet не сравнивал, не знаю.

Пытается, почему же. Другое дело, что много ошибается. Но тут сказывается и недостаточность данных для обучения, всего 5 часов, и неочевидность крутилок, которые бы влияли на конкретную проблему в произнесениях.

Вот ниже в комментариях предлагают подавать на сеть сразу фонемную запись, вместо графемной. Тогда будут учитываться и степени редукции, и ударность/заударность. Придется правда делать хороший G2P.

Information

Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Works in
Date of birth
Registered
Activity