Комментарии 6
Проблема со спектрограммами в том, какую длину окна выбрать в преобразовании Фурье. Большое — и потеряются мелкие детали. Маленькое — и картинка окажется не наглядной для системы компьютерного зрения. Разные масштабирования, сжатие и растяжение осей (линейное, логарифмическое или мел) имеют ту же проблему — либо теряем детали, либо получаем избыток шума, что усложняет визуальное распознавание. А если использовать сразу несколько спектрограмм с разным шагом, то это получится примерно такой же объем данных, как анализировать звук напрямую.
Поэтому будущее все же за прямым анализом. В синтезе звука, а на самом деле тоже распознавании — так как для хорошего синтеза нужно распознать характерные паттерны в звуке, чтобы их потом имитировать, уже давно ушли от спектрограмм к прямому анализу. Ещё начиная с древней WaveNet. Хотя в человеческом ухе действительно есть аналог спектрограммы, так как чувствительные клетки соединены и снимают сигнал с разных частей улитки, резонирующих на разных частотах (аналог быстрого преобразования Фурье), причем в логарифмическое масштабе (точнее, в мел масштабе). И распознавание паттернов звука дальше делается нейронами, аналогичными тем, что в зрительной системе. Поэтому для ограниченного круга задач и при удачном подборе параметров (шаг, масштабирование осей) спектрограммы использовать вполне можно. Но лучше анализировать напрямую звуковую wave волну.
Получается, видеть можно ушами. Очень интересно
Не удержался.
ZX-Spectrum отлично переводил аудио в картинку.
https://m.vk.com/video1226296_456239051
Как преобразовать аудиоданные в изображения