Comments 9
Странно, что ШП вообще хоть сколько-нибудь значимо увеличивает качество распознавания речи машинами. Глубина алгоритмов ШП порядково ниже таковых для распознавания - соответственно, ШП на входе могут улучшить результат максимум примерно в этой пропорции.
В субъективной модели - да, это работает, причём достаточно алгоритмически-простыми средствами (вспомним даже аналоговые ШП Маяк и Долби). Но роботу все равно - он не обладает субъективизмом восприятия акустических сигналов.
То о чём вы говорите больше похоже на фильтрацию по SNR, там нет "обучения" как такового, а есть эмпирическое вычисление порогов по заранее установленным значениям SNR. Этот подход действительно, как правило, используется изолированно для каждого примера, однако, есть и другие, обучаемые подходы, роль которых подавлять шум в сигнале по предобученным параметрам.
Алгоритмы распознавания речи при этом также могут быть как и обучены заранее, так и адаптированы под шумные или искажённые в результате шумоподавления записи.
Вы правы, получить значимого улучшения с предобученной моделью распознавания речи весьма сложно, нужно, чтобы генерируемый сигнал был подобен записанным сигналам, однако, есть способы решения этой проблемы.
Возможно получить улучшение 1-4% WER reduction, если натренировать модель ШП убирать стационарные шумы.
Другим вариантом является дообучать систему распознавания речи на таких "покаррапченных" записях, собственно, у работ по этой теме является стандартной практикой сравнивать два варианта: с дообучением и без. В частности, у Kinoshita et al преставлены результаты в случае этих двух подходов.
Ещё одним возможным вариантом сглаживания артефактов в сигнале является смешивание исходного и очищенного сигнала в некоторой пропорции.
Наконец, как упомянуто в статье, можно натренировать модель генерировать сигналы, имитирующие записанные, используя GAN-ы. Мне конкретно для ASR это не помогло, но я использовала этот подход в связке с довольно агрессивной аугментацией, так что сейчас я как раз исследую эту тему.
"Фильтр Вейнера (Weiner filter)" - откройте английскую Вики для английского варианта термина (на смартфоне - версию для ПК), перейдите на соответствующую страницу русской Вики и узнаете как этот фильтр называется в русскоязычной специальной литературе.
Не эксперт, но почему-то думаю то о чем статья это фильтрация, а шумоподавление это ANC( когда звук в противофазе пускаем)...
Винеровское оценивание и ConvTasnet в своей основе подразумевают фильтрацию, когда как DEMUCS и HiFiGAN являются генеративными методами шумоподавления. Все эти методы называются "шумоподавлением" в литературе, связанной с DS и ML в связи с главной решающейся задачей. В других областях может быть действительно другое разделение этих алгоритмов.
Обзор методов улучшения речи и шумоподавления: от классики к SotA