Comments / Profile of dmzubr / Habr

Дмитрий Зубрецкий @dmzubr

Пользователь

ProfileArticlesPostsNewsComments6

Нейросети против пылесоса, или Как мы убрали лишний шум в звонках ВКонтакте

dmzubr Aug 19 2021 at 08:02

Спасибо за статью!

В сторону DEMUCS (https://arxiv.org/pdf/2006.12847.pdf) не смотрели? Или смотрели, и не устроил ожидаемый RTF?

Look

Приемы повышения производительности инференса глубоких моделей с DL Workbench. Часть 1 — введение и установка

dmzubr Apr 8 2021 at 15:37

Сугубо лично мне было бы полезно!
Осмелюсь предположить и надеюсь, что всё же не только мне.

Look

Приемы повышения производительности инференса глубоких моделей с DL Workbench. Часть 1 — введение и установка

dmzubr Apr 8 2021 at 14:11

Немного диссонанс возник:
> Приемы повышения производительности инференса глубоких моделей
> установим Docker на Windows 10 и запустим DL Workbench

В том смысле, что оптимизация инференсов, имеющая в результате полезность (в скорости И/ИЛИ деньгах) для продакшн сред вряд ли начиналась бы с Docker под Windows.

Иначе говоря — как можно применить OpenVINO в условиях какой-то более «продакшн» среды, например Docker-K8s на ресурсах AWS/GCP?

Или это вопрос для следующих частей цикла? :)

Look

Синтез речи виртуальных ассистентов Салют: как мы отошли от классических научных статей, чтобы сделать его человеческим

dmzubr Mar 26 2021 at 13:02

Спасибо!
С ParallelWavegan тоже не удалось приемлемого получить.

Look

dmzubr Mar 26 2021 at 12:43

Если я правильно уловил посыл упомиания GAN в комменте выше, то он наверное не только про вокодер :)

Мы много чего пробовали, но там проблемы с воспроизводимостью

Могли бы мысль чуть раскрыть пожалуйста?

Из своего опыта (справедливости ради — объективной оценки результата по MOS нет) — наиболее удачным сочетанием по скорости-качеству получилась связка: TacotronForward + MelGAN. По крайней мере при очень чистом тренировочном датасете.

Look

dmzubr Mar 26 2021 at 12:06

Спасибо за материал, комплексное представление даёт!

При выборе вокодера рассматривали вариант MELGAN?
Если да — то в связи с чем сделали выбор в пользу LPCNet?
У вокодера модель на каждого спикера отдельно или «мульти спикер»?

Look