Как стать автором
Обновить
9
0

Пользователь

Отправить сообщение

Мел-кепстральные коэффициенты (MFCC) и распознавание речи

Время на прочтение4 мин
Количество просмотров85K
Недавно я наткнулся на интересную статью, опубликованную rgen3, в которой описан DTW-алгоритм распознавания речи. В общих чертах, это сравнение речевых последовательностей с применением динамического программирования.

Заинтересовавшись темой, я попробовал применить этот алгоритм на практике, но на этом пути меня поджидало некоторое количество граблей. Прежде всего, что именно нужно сравнивать? Непосредственно звуковые сигналы во временной области — долго и не очень эффективно. Спектрограммы — уже быстрее, но не намного эффективнее. Поиски наиболее рационального представления привели меня к MFCC или Мел-частотным кепстральным коэффициентам, которые часто используются в качестве характеристики речевых сигналов. Здесь я попытаюсь объяснить, что они из себя представляют.
Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии9

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность