Комментарии 14
а сосед именно в этот момент решил просверлить несколько отверстий под новую полочку
обычно в таких случаях ставят/включают
видеозамену фона
Какое решение рекомендуете для headless on-device, когда денойзер нужен, а СберДжаз - нет:
RNNnoise
DEMUCS
FullSubNet
доработанный FullSubNet
?
какой sample rate?
Любой. Хоть 16кГц. Сконвертировать в нужный налету нет проблем.
Любой. Хоть 16кГц. Сконвертировать в нужный налету нет проблем.
Входных данных маловато. Предположим, вам нужен, realtime денойзер. Инференс на cpu/gpu? предположим, что cpu.
Сразу оговорюсь, лучше не работать с моделью 16кГц, иначе будет заметное падение качества, даже после обратного апсемплинга. Если с данными нет проблемы, то конечно, стоит начать с какой-то из версий семейства fullsubnet (но не ванильной). Это будет хороший компромисс по качеству/скорости. Можно еще попробовать рассмотреть другие решения, не из этого списка, например DeepFilterNet.
Кусок текста сдублировался
Подумайте о том, как пользователю показать, насколько шумодав справляется.
Тут в конце лета в одном корпоративном Универе слушал вебинар. Так лектор был полностью уверен, что у него самый передовой шумодав. Но шумодав работал только в паузах, а внутри фраз вся аудитория слышала звон посуды в мойке на заднем плане и детские голоса.
Минут через сорок ему сказали, что шумодав не вывозит.
Как пользователь вашего решения будет понимать, что слушателям шум не мешает и речь при этом не пострадала? Он один раз может спросить у пользователей, но шум ведь штука динамичная...
Интересно было бы посмотреть сравнение с Nvidia RTX Voice
Будет ли какой-то доступ к самому денойзеру? Периодически делаю запись текстов и прогоняю их через инструмент от адоб, но интересно попробовать ваш вариант
На чем у вас написан инференс модели? И как модель себя чувствует с точки зрения производительности на не топовых девайсах?
Перфоратор не помеха. Наслаждаемся «чистым» звуком с денойзером от SaluteJazz