Немного диссонанс возник:
> Приемы повышения производительности инференса глубоких моделей
> установим Docker на Windows 10 и запустим DL Workbench
В том смысле, что оптимизация инференсов, имеющая в результате полезность (в скорости И/ИЛИ деньгах) для продакшн сред вряд ли начиналась бы с Docker под Windows.
Иначе говоря — как можно применить OpenVINO в условиях какой-то более «продакшн» среды, например Docker-K8s на ресурсах AWS/GCP?
Если я правильно уловил посыл упомиания GAN в комменте выше, то он наверное не только про вокодер :)
Мы много чего пробовали, но там проблемы с воспроизводимостью
Могли бы мысль чуть раскрыть пожалуйста?
Из своего опыта (справедливости ради — объективной оценки результата по MOS нет) — наиболее удачным сочетанием по скорости-качеству получилась связка: TacotronForward + MelGAN. По крайней мере при очень чистом тренировочном датасете.
Спасибо за материал, комплексное представление даёт!
При выборе вокодера рассматривали вариант MELGAN?
Если да — то в связи с чем сделали выбор в пользу LPCNet?
У вокодера модель на каждого спикера отдельно или «мульти спикер»?
Спасибо за статью!
В сторону DEMUCS (https://arxiv.org/pdf/2006.12847.pdf) не смотрели? Или смотрели, и не устроил ожидаемый RTF?
Осмелюсь предположить и надеюсь, что всё же не только мне.
> Приемы повышения производительности инференса глубоких моделей
> установим Docker на Windows 10 и запустим DL Workbench
В том смысле, что оптимизация инференсов, имеющая в результате полезность (в скорости И/ИЛИ деньгах) для продакшн сред вряд ли начиналась бы с Docker под Windows.
Иначе говоря — как можно применить OpenVINO в условиях какой-то более «продакшн» среды, например Docker-K8s на ресурсах AWS/GCP?
Или это вопрос для следующих частей цикла? :)
С ParallelWavegan тоже не удалось приемлемого получить.
Могли бы мысль чуть раскрыть пожалуйста?
Из своего опыта (справедливости ради — объективной оценки результата по MOS нет) — наиболее удачным сочетанием по скорости-качеству получилась связка: TacotronForward + MelGAN. По крайней мере при очень чистом тренировочном датасете.
При выборе вокодера рассматривали вариант MELGAN?
Если да — то в связи с чем сделали выбор в пользу LPCNet?
У вокодера модель на каждого спикера отдельно или «мульти спикер»?