Как стать автором
Обновить

Быстрый денойз аудио в высоком качестве

Время на прочтение2 мин
Количество просмотров3.8K

Не всегда можно записать аудио в идеальной тишине
Не всегда можно записать аудио в идеальной тишине


Довольно давно мы сделали у себя в целом простой нетребовательный денойз, а выложить модели как-то руки всё не доходили. Решили наконец-то исправить данное недоразумение.


Подходы к фильтрации шумов в аудио, содержащих речь, могут быть разные. Если подходить к этому с использованием нейросетей, можно объединить попытку избавиться от шума с попыткой улучшить звучание: уменьшить влияние различных эффектов, артефактов, например, эха или особенностей микрофона, попробовать повысить частоту дискретизации. Так мы и поступили.


Хотелось еще, чтобы модель была маленькой, работала быстро и качество на выходе было высоким.


Получилось, в целом, неплохо. Примеры будут ниже.


В сравнении с доступными претрейн моделями для денойзинга, наши модели отличаются высокой частотой дискретизации на выходе (denoiser от известной экстремистской организации работает лишь для 16кГц), работают быстрее (некоторые даже на порядок) на CPU (для замеров использовали 4 треда на Intel® Core(TM) i9-10940X CPU @ 3.30GHz) и легковесны.


Привожу сравнение пользовательских показателей с другими доступными системами (возможно, появились и другие доступные модели, уже давно детально не интересовались этим вопросом, если есть желание, можете поделиться ими в комментариях):


Модель Частота дискретизации на выходе Частота дискретизации на входе (см. прим.) RTF (меньше = быстрее)
Silero Denoise SNS 48000 24000 0.29
Silero Denoise LNF 48000 24000 0.12
Silero Denoise SNF 48000 24000 0.10
VoiceFixer 44100 44100 0.71
denoiser H=48 16000 16000 0.60
denoiser H=64 16000 16000 1.00

*Частота дискретизации на входе у silero-denoise и VoiceFixer может быть любой, но должна быть или будет приведена к указанной "рабочей" частоте сетки.


RTF — Real Time Factor (processing time / audio length); SNS — small, slow, LNF — large, fast, SNF — small, fast. Замеры на 4 тредах Intel® Core(TM) i9-10940X CPU @ 3.30GHz


Есть и другие, в том числе и более простые методы денойза, и в более узких применениях они могут справляться сильно лучше. Например, для стационарного шума неплохо работает и спектральный денойз.


С точки зрения звучания и эффективности фильтрации шума можете сделать выводы на примерах (не все эффекты представлены, слишком громоздко было бы), или попробовав самостоятельно:


Просто шум:










Просто реверб (эхо):










Восстановление частоты дискретизации:










Лоупасс фильтр:










Клиппинг:









Теги:
Хабы:
Всего голосов 12: ↑11 и ↓1+12
Комментарии24

Публикации

Работа

Data Scientist
45 вакансий

Ближайшие события