Как стать автором
Обновить
1
0
Жора Григорьев @ThePowerfulDeeZ

Программист на Python

Отправить сообщение
точно, как в fastspeech2 эмбеддинги используются для бинов pitch и тд) Спасибо за подробный ответ!

Привет! У меня много вопросов)


  1. Как работает паузная модель? Я понимаю, как сделать разметку (алайнмент и отдельный токен на паузу если тишина была более x секунд внутри предложения), но как учить отдельную модель? Как seq2seq где на входе текст а на выходе текст с токенами пауз в нужных местах или классификатор для каждого слова нужно ли после него вставить паузу? И на инференсе это работает как препроцессинг текста получается?
  2. Использовали ли вы фонемы? На схеме везде текст, берт может кушать текст, но ведь можно перед текст энкодером такотрона через g2p модель символы перегонять в фонемы. Были ли эксперименты с этим?
  3. На схеме спектрограммы ты изображал ее с 120 бинами, а не 80, как обычно. Это сильно повлияло на качество голоса в вашем случае?
  4. На схеме конечной архитектуры есть word labels predictor который возвращает предсказания для quantized loudness и тд. Выходной размер у сети – 64. Можно поподробнее что на выходе и как это получено? На разметке в том числе. На сколько бинов делилась громкость, как получалась (это норма магнитуды спектрограммы) и тд
  5. Также на схеме декодер предсказывает выходной размер в 22 за шаг (хотя размер спектрограммы 120, или 80?) – так задумано?
Но на самом деле последний вариант предпочтительнее
Действительно, ошибался. Разницы нет. Что и подтверждают тесты
списки в Python гетерогенны, т.е. принимают любые типы.
кортежи неизменяемы. Строка тоже кортеж, но при этом еще и типизированный.
Самое красивое решение, на мой взгляд

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность