Pull to refresh

Comments 9

Странно, что ШП вообще хоть сколько-нибудь значимо увеличивает качество распознавания речи машинами. Глубина алгоритмов ШП порядково ниже таковых для распознавания - соответственно, ШП на входе могут улучшить результат максимум примерно в этой пропорции.

В субъективной модели - да, это работает, причём достаточно алгоритмически-простыми средствами (вспомним даже аналоговые ШП Маяк и Долби). Но роботу все равно - он не обладает субъективизмом восприятия акустических сигналов.

А разве отличие алгоритмов ШП не в том, что они обучаются на конкретном сигнале, который затем идёт на распознавание, в то время как алгоритмы распознавания должны быть обучены заранее?

То о чём вы говорите больше похоже на фильтрацию по SNR, там нет "обучения" как такового, а есть эмпирическое вычисление порогов по заранее установленным значениям SNR. Этот подход действительно, как правило, используется изолированно для каждого примера, однако, есть и другие, обучаемые подходы, роль которых подавлять шум в сигнале по предобученным параметрам.

Алгоритмы распознавания речи при этом также могут быть как и обучены заранее, так и адаптированы под шумные или искажённые в результате шумоподавления записи.

Я говорю о подавлении шумов, природа которых не известна алгоритму шумоподавления заранее путём выделения их характеристик нейросетью в процессе обработки целевого аудиопотока по критерию «это не речь», и вычитания их из сигнала на основе предсказания их динамических характеристик этой нейросетью. То есть, если, например, к речи подмешан какой-то периодически повторяющийся звук, который неизвестен заранее, например, громкое тиканье часов, стук колёс поезда, или удары колокола, можно выделить на нескольких его повторениях его частотно-временные характеристики, и подавлять его основываясь на них лучше, чем по исходному критерию «это не речь», по которому можно обучить нейросеть заранее. Я думаю, что так подавляет шумы мозг человека.

Вы правы, получить значимого улучшения с предобученной моделью распознавания речи весьма сложно, нужно, чтобы генерируемый сигнал был подобен записанным сигналам, однако, есть способы решения этой проблемы.

Возможно получить улучшение 1-4% WER reduction, если натренировать модель ШП убирать стационарные шумы.

Другим вариантом является дообучать систему распознавания речи на таких "покаррапченных" записях, собственно, у работ по этой теме является стандартной практикой сравнивать два варианта: с дообучением и без. В частности, у Kinoshita et al преставлены результаты в случае этих двух подходов.

Ещё одним возможным вариантом сглаживания артефактов в сигнале является смешивание исходного и очищенного сигнала в некоторой пропорции.

Наконец, как упомянуто в статье, можно натренировать модель генерировать сигналы, имитирующие записанные, используя GAN-ы. Мне конкретно для ASR это не помогло, но я использовала этот подход в связке с довольно агрессивной аугментацией, так что сейчас я как раз исследую эту тему.

"Фильтр Вейнера (Weiner filter)" - откройте английскую Вики для английского варианта термина (на смартфоне - версию для ПК), перейдите на соответствующую страницу русской Вики и узнаете как этот фильтр называется в русскоязычной специальной литературе.

Спасибо за замечание! Исправила.

Изучала этот материал в основном в английских источниках и не повезло наткнуться на корректный перевод.

Не эксперт, но почему-то думаю то о чем статья это фильтрация, а шумоподавление это ANC( когда звук в противофазе пускаем)...

Винеровское оценивание и ConvTasnet в своей основе подразумевают фильтрацию, когда как DEMUCS и HiFiGAN являются генеративными методами шумоподавления. Все эти методы называются "шумоподавлением" в литературе, связанной с DS и ML в связи с главной решающейся задачей. В других областях может быть действительно другое разделение этих алгоритмов.

Sign up to leave a comment.