Входных данных маловато. Предположим, вам нужен, realtime денойзер. Инференс на cpu/gpu? предположим, что cpu.
Сразу оговорюсь, лучше не работать с моделью 16кГц, иначе будет заметное падение качества, даже после обратного апсемплинга. Если с данными нет проблемы, то конечно, стоит начать с какой-то из версий семейства fullsubnet (но не ванильной). Это будет хороший компромисс по качеству/скорости. Можно еще попробовать рассмотреть другие решения, не из этого списка, например DeepFilterNet.

E_I_P 8 окт 2024 в 18:11

Кусок текста сдублировался

artsokol 9 окт 2024 в 09:35

да, спасибо). поправили

propell-ant 9 окт 2024 в 07:38

Подумайте о том, как пользователю показать, насколько шумодав справляется.
Тут в конце лета в одном корпоративном Универе слушал вебинар. Так лектор был полностью уверен, что у него самый передовой шумодав. Но шумодав работал только в паузах, а внутри фраз вся аудитория слышала звон посуды в мойке на заднем плане и детские голоса.
Минут через сорок ему сказали, что шумодав не вывозит.

Как пользователь вашего решения будет понимать, что слушателям шум не мешает и речь при этом не пострадала? Он один раз может спросить у пользователей, но шум ведь штука динамичная...

artsokol 9 окт 2024 в 09:42

Да, спасибо. это была бы интересная функциональность. Возможно, анализируя степень очистки (а мы это умеем), мы бы могли попробовать что-то на этом надстроить и в виде подсказки выводить пользователю. Задумаемся. Спасибо за идею)

atomnijpchelovek 10 окт 2024 в 16:29

Интересно было бы посмотреть сравнение с Nvidia RTX Voice

LbICbIY 10 окт 2024 в 19:20

Будет ли какой-то доступ к самому денойзеру? Периодически делаю запись текстов и прогоняю их через инструмент от адоб, но интересно попробовать ваш вариант

artsokol 11 окт 2024 в 19:52

Да. Но позже

bondunar 22 окт 2024 в 05:23

На чем у вас написан инференс модели? И как модель себя чувствует с точки зрения производительности на не топовых девайсах?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий