Как преобразовать аудиоданные в изображения / Комментарии / Хабр

DesertFlow 14 янв 2021 в 16:53

Проблема со спектрограммами в том, какую длину окна выбрать в преобразовании Фурье. Большое — и потеряются мелкие детали. Маленькое — и картинка окажется не наглядной для системы компьютерного зрения. Разные масштабирования, сжатие и растяжение осей (линейное, логарифмическое или мел) имеют ту же проблему — либо теряем детали, либо получаем избыток шума, что усложняет визуальное распознавание. А если использовать сразу несколько спектрограмм с разным шагом, то это получится примерно такой же объем данных, как анализировать звук напрямую.

Поэтому будущее все же за прямым анализом. В синтезе звука, а на самом деле тоже распознавании — так как для хорошего синтеза нужно распознать характерные паттерны в звуке, чтобы их потом имитировать, уже давно ушли от спектрограмм к прямому анализу. Ещё начиная с древней WaveNet. Хотя в человеческом ухе действительно есть аналог спектрограммы, так как чувствительные клетки соединены и снимают сигнал с разных частей улитки, резонирующих на разных частотах (аналог быстрого преобразования Фурье), причем в логарифмическое масштабе (точнее, в мел масштабе). И распознавание паттернов звука дальше делается нейронами, аналогичными тем, что в зрительной системе. Поэтому для ограниченного круга задач и при удачном подборе параметров (шаг, масштабирование осей) спектрограммы использовать вполне можно. Но лучше анализировать напрямую звуковую wave волну.

Комментарии 6

НЛО прилетело и опубликовало эту надпись здесь

buriy 18 янв 2021 в 18:26

Только у человека в этом мел масштабе грубо говоря 1000 отсчётов на всю шкалу (т.е. на частотах около 100 гц они идут с разницей по 1-2 герца), а у компьютера обычно всего штук 40.
Давно хочу попробовать получить подробное человеческому разбиение и показать, как оно выглядит на картинке.

vernonnewman 15 янв 2021 в 00:08

Получается, видеть можно ушами. Очень интересно

HavenDV 15 янв 2021 в 02:16

А еще можно слышать спиной — www.ted.com/talks/david_eagleman_can_we_create_new_senses_for_humans?language=ru#t-691376.

Jorell 15 янв 2021 в 22:34

Не удержался.
ZX-Spectrum отлично переводил аудио в картинку.
https://m.vk.com/video1226296_456239051

Зарегистрируйтесь на Хабре, чтобы оставить комментарий