С одной моделькой на все бросаться — какой-то странный фетиш. Все эти системы нацелены на решения каких-то конкретных бизнесовых задач — иногда в колл-центрах, иногда в смартфонах, иногда еще где-то. Цель — сделать решение, которое работает. Как показывает практика, есть порог WER, начиная с которого кейсы начинают решаться. Это и от домена зависит, и от сценария использования, и от много чего еще.
Что же касается ЦРТ и наших решений, то мы серьезно выросли за последние годы. Статья — достаточно наглядно это подсвечивает, спасибо авторам за приятные сердцу результаты. У нас есть прекрасная универсальная дженерал модель для всего. При этом кастомизация и тюнинг системы под конкретную задачу все еще бывают очень уместны. Уметь это делать нам тоже кажется важным.
Отмечу, что есть еще интересные способы сравниться с коллегами по цеху. Мы вот в очередной раз поучаствовали в CHiME 6 в этом году: https://chimechallenge.github.io/chime6/results.html (STC-innovations Ltd, ITMO University — наша команда).
Эта архитектура начинает давать разборчивую речь довольно быстро. Но 20 тыс. итераций — это, конечно, довольно мало. Пройдите хотя бы по 150 тыс. на каждую часть.
Обратите внимание на attention plot. График должен быть диагональным, с минимальными выбросами. На то, как он должен выглядеть, можно посмотреть в оригинальном репозитории в соответствующем разделе README.md. Если у вас какой-то шум на графике после значительного количества шагов, то явно что-то пошло не так.
Ну и наконец, гиперпараметры:
max_N = 180 # Maximum number of characters.
max_T = 210 # Maximum number of mel frames.
Убедитесь, что данные, на которых вы обучаетесь, соответствуют этим ограничениям.
Спасибо за свежую статью! HTS и Festival-Festvox даже не упоминаются в Вашей статье -они уже настолько устарели?
Ну статья немного про другое. Она про то, что можно оторваться от всего, что есть в области синтеза, и сделать прямо с нуля. Благодаря машинному обучению это стало возможно.
У Ольги Яковлевой (слепая программистка) на bitray много готового материала (движок RHVoice).
Чем больше открытых данных, тем лучше.
Интересно, почему? Интонации вроде не требуют локализации и алгоритм простой: вопросительная -последний слог выше и т.д. Кроме того, в примерах синтеза окончание предложения интонацией выделяется.
Эта реализация, конечно, произносит предложение с какой-то интонацией, но задать ее сейчас не получится. Как дела? будет произнесено утвердительно.
Использовать фонемную разметку — это следующий мой шаг. Благо у нас есть хорошие G2P модели, на которых можно экспериментировать. Они же используются и в распознавании речи.
Для каждого языка обычно используется свои списки фонем и свои транскрипторы. Полагаю, что ключевой момент тут в качестве получающейся речи. Требования к коммерческому синтезу речи очень высокие.
E2E не то чтобы честный. Восстанавливаем то мы спектрограмму, а ее еще в звук нужно преобразовать. По поводу скорости — я бы сказал, что пока это работает слишком медленно. Прямо вот запустил и синтезировал пока не получается, оно какое-то ощутимое время пыхтит. Конкретную скорость я не измерял и с WaveNet не сравнивал, не знаю.
Пытается, почему же. Другое дело, что много ошибается. Но тут сказывается и недостаточность данных для обучения, всего 5 часов, и неочевидность крутилок, которые бы влияли на конкретную проблему в произнесениях.
Вот ниже в комментариях предлагают подавать на сеть сразу фонемную запись, вместо графемной. Тогда будут учитываться и степени редукции, и ударность/заударность. Придется правда делать хороший G2P.
Information
Rating
Does not participate
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Что же касается ЦРТ и наших решений, то мы серьезно выросли за последние годы. Статья — достаточно наглядно это подсвечивает, спасибо авторам за приятные сердцу результаты. У нас есть прекрасная универсальная дженерал модель для всего. При этом кастомизация и тюнинг системы под конкретную задачу все еще бывают очень уместны. Уметь это делать нам тоже кажется важным.
Отмечу, что есть еще интересные способы сравниться с коллегами по цеху. Мы вот в очередной раз поучаствовали в CHiME 6 в этом году: https://chimechallenge.github.io/chime6/results.html (STC-innovations Ltd, ITMO University — наша команда).
Обратите внимание на attention plot. График должен быть диагональным, с минимальными выбросами. На то, как он должен выглядеть, можно посмотреть в оригинальном репозитории в соответствующем разделе README.md. Если у вас какой-то шум на графике после значительного количества шагов, то явно что-то пошло не так.
Ну и наконец, гиперпараметры:
Убедитесь, что данные, на которых вы обучаетесь, соответствуют этим ограничениям.
Ну статья немного про другое. Она про то, что можно оторваться от всего, что есть в области синтеза, и сделать прямо с нуля. Благодаря машинному обучению это стало возможно.
Чем больше открытых данных, тем лучше.
Эта реализация, конечно, произносит предложение с какой-то интонацией, но задать ее сейчас не получится. Как дела? будет произнесено утвердительно.
Для каждого языка обычно используется свои списки фонем и свои транскрипторы. Полагаю, что ключевой момент тут в качестве получающейся речи. Требования к коммерческому синтезу речи очень высокие.
E2E не то чтобы честный. Восстанавливаем то мы спектрограмму, а ее еще в звук нужно преобразовать. По поводу скорости — я бы сказал, что пока это работает слишком медленно. Прямо вот запустил и синтезировал пока не получается, оно какое-то ощутимое время пыхтит. Конкретную скорость я не измерял и с WaveNet не сравнивал, не знаю.
Вот ниже в комментариях предлагают подавать на сеть сразу фонемную запись, вместо графемной. Тогда будут учитываться и степени редукции, и ударность/заударность. Придется правда делать хороший G2P.