Как стать автором
Обновить

Комментарии 6

НЛО прилетело и опубликовало эту надпись здесь

Проблема со спектрограммами в том, какую длину окна выбрать в преобразовании Фурье. Большое — и потеряются мелкие детали. Маленькое — и картинка окажется не наглядной для системы компьютерного зрения. Разные масштабирования, сжатие и растяжение осей (линейное, логарифмическое или мел) имеют ту же проблему — либо теряем детали, либо получаем избыток шума, что усложняет визуальное распознавание. А если использовать сразу несколько спектрограмм с разным шагом, то это получится примерно такой же объем данных, как анализировать звук напрямую.


Поэтому будущее все же за прямым анализом. В синтезе звука, а на самом деле тоже распознавании — так как для хорошего синтеза нужно распознать характерные паттерны в звуке, чтобы их потом имитировать, уже давно ушли от спектрограмм к прямому анализу. Ещё начиная с древней WaveNet. Хотя в человеческом ухе действительно есть аналог спектрограммы, так как чувствительные клетки соединены и снимают сигнал с разных частей улитки, резонирующих на разных частотах (аналог быстрого преобразования Фурье), причем в логарифмическое масштабе (точнее, в мел масштабе). И распознавание паттернов звука дальше делается нейронами, аналогичными тем, что в зрительной системе. Поэтому для ограниченного круга задач и при удачном подборе параметров (шаг, масштабирование осей) спектрограммы использовать вполне можно. Но лучше анализировать напрямую звуковую wave волну.

Только у человека в этом мел масштабе грубо говоря 1000 отсчётов на всю шкалу (т.е. на частотах около 100 гц они идут с разницей по 1-2 герца), а у компьютера обычно всего штук 40.
Давно хочу попробовать получить подробное человеческому разбиение и показать, как оно выглядит на картинке.

Получается, видеть можно ушами. Очень интересно

Зарегистрируйтесь на Хабре, чтобы оставить комментарий