Комментарии 10
Добавлю что мелкепстральные коэффициенты в общем случае являются эмбеддингами - векторизированным представлением звука для его более быстрой и оптимальной обработки нейросетевыми алгоритмами. Очень часто для реальных проектов обоаботки звука используются кастомные эмбеддинги, в том числе сформированные с использованием различных библиотек и подходов (например openl3, torchopenl3).
а как представить скажем зучание буквы А и буквы скажем И и различить их нейрнкой?
Нужно сделать "слепок" фиксированной длины, т.н. feature vector. Как правило это некоторая статистическая модель куска сигнала, достаточно ивариантная к изменениям (тембра, громкости, скорости произношения и т.д.). Этот вектор можно скормить обычной сети. Результат будет средней паршивости. Лучший результат будет если слепок будет последовательностью векторов (например полученных каждые Х миллисекунд). Эту последовательность можно уже скормить рекурентной сети.
Эту задачу можно решить как раз используя MFCC. То есть, в качестве векторов признаков будут использоваться мел-кепстральные коэффициенты.
Обычно звуковой сигнал делится на микросэмплы, например по 10-100мс, для каждого семпла рассчитывается MFCC. Полученная последовательность признаков и есть то самое представление буквы А или И. Эти последовательности подаются на вход рекуррентной нейронной сети, и уже сама сеть учится определять какая последовательность соответствует одному звуку, а какая другому
Для интересующихся темой - есть активно развивающееся коммьюнити, работающее с технологиями звуковой детекции и классификации событий в различных сценариях - DCASE COMMUNITY. Там много материалов и подходов - в том числе со ссылками на статьи и гитхабами с кодом.
На хабре есть достаточно много статей по обработке звука - в частности https://habr.com/ru/company/speechpro/blog/437818/
Для интересующихся темой - я недавно провел онлайн лекцию на похожую тему, можете посмотреть. Там прям для новичков и на пальцах
https://www.youtube.com/watch?v=2OAcAg3utq4
Вот тут еще можете посмотреть, там про мел-спектрограммы расписал поподробнее
https://habr.com/ru/post/462527/
Способы представления аудио в ML