tatvch Jun 17 2022 at 18:08

Анализ аудиоданных (часть 3)

15 min

12K

Python*Programming*Data visualization*Machine learning*Sound

Tutorial

Comments 6

longtolik Jun 18 2022 at 06:10

Если интересно, на видео - работают мел-кепстральные коэффициенты. Без питона и библиотек, просто на языке C и голом железе микропроцессора.

https://youtu.be/Q9KhWpwOF80

tatvch Jun 18 2022 at 08:02

Видео посмотрела. Спасибо!

sim2q Jun 18 2022 at 23:48

Интересно, в примере аппаратное FFT задействовано?
ps мне для распознавания треков - всякая электроника: техно разных вариация и подклассы вплоть до эмбиента.. голоса нет)) совершенно для меня новое - в прошлых статьях только узнал обо всём этом, раньше сохранял только bpm и тональность (из dj софта готовые тэги). Сейчас пытаюсь понять сколько вот этого вот нагенерённого librosa в базу класть что бы "потом разберёмся"

longtolik Jun 19 2022 at 04:38

Естественно. RIISC-V SoC K210 дополнили аппаратным FFT. Работает шикарно. 512 точек. Строил графики, По оси X - частота, по Y - напряжение или мощность на этой частоте, по Z - время, с интервалом 20 мс. Можно вращать в 3D и рассматривать. Подавал сигналы от .MIDI клавиатуры. Четко видны пики именно на определенных частотах сигнала. Очень наглядно в отличие от "термальных" спектрограмм.

basilbasilbasil Jun 19 2022 at 00:27

45 характеристик аудио - это откуда столько?

tatvch Jun 19 2022 at 01:33

Во второй части анализа аудиоданных я подробно разобрала извлечение значимых характеристик.

Из всех аудиофайлов в наборе данных с помощью библиотеки librosa - librosa.feature, метода append( ) и метода extend( ) проводим:

Извлечение из Мел-кепстральных коэффициентов - средние значения и стандартные отклонения (по 20 значений);
Извлечение из Спектрального центроида - среднее значение, стандартное отклонение и skew (наклон);
Извлечение из Спектрального спада - среднее значение и стандартное отклонение;

Двухмерная таблица - Dataframes, состоящая из 47столбцов и 50000 строк.
В таблице data мы видим:

столбец ‘filename’, где указан номер и название файла (Аудиофайлы перемешаны)
столбцы ‘mfcc_mean{i}’ и ‘mfcc_std{i}’ - средние значения и стандартные отклонения (по 20 значений) из Мел-кепстральных коэффициентов;
столбцы 'cent_mean', 'cent_std', 'cent_skew' - среднее значение, стандартное отклонение и skew (наклон) из Спектрального центроида;
столбцы 'rolloff_mean', 'rolloff_std' - среднее значение и стандартное отклонение из Спектрального спада ;
столбец ‘label’ метка

Двухмерная таблица - Dataframes, состоящая из 47столбцов и 50000 строк.