Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Поэтому мой рассказ будет изобиловать неточностями, ошибками и разочарованиямиЧестно говоря, немного расстраивает такой подход. Вроде бы здорово — человек старался, написал статью с отличной и интересной темой. Но почему бы не потратить время на повышение ее качества? Конечно, лучше заранее предупредить, чем потом слышать упреки. Но таким образом, вы сильно уменьшаете доверие к своей статье и желание ее читать. Какой же выход из этого? Просто сделать так, чтобы не было неточностей и ошибок, хотя бы свести их вероятность к минимуму. Если не уверены в каком-то предложении, изучите подробнее соответствующий материал. Да, это время, но оно будет работать на вас. И статья принесет больше пользы. По крайней мере, гораздо сильнее отразится на вашем рейтинге в положительную сторону.
Волна же, как нам известно из физики, характеризуются двумя атрибутами — амплитудой и частотойИ начальной фазой.
Для того, что бы сохранить звуковой сигнал на цифровом носителе, его необходимо разбить на множество промежутков и взять некоторое «усредненное» значение на каждом из нихЭто подойдет для самого простого случая оцифровки. Но может сложиться впечатление, что АЦП работает так просто.
Фреймы являются более подходящей единицей анализа данных, чем конкретные значения сигнала, так как анализировать волны намного удобней на некотором промежутке, чем в конкретных точках.Скорее не то, что бы удобнее, а возможность получить спектр сигнала, ограниченного фреймом. Спектр конкретной точки не очень полезен.
Мы знаем (из данных об аудиоформате), что частота звука в данной фрейме 16000hzИмелась в виду частота дискретизации?
построим гистограмму (плотность распределения) значений сигнала фреймаГистограмма — верно, но плотность распределения — понятие, обычно относящееся к непрерывным сигналам. Эти понятия часто путают.
Так же к полученным значениям рекомендуется применить оконную функцию Хэмминга, что бы “сгладить” значения на границах фреймов.главная цель — уменьшить утечку спектра
Спектр конкретной точки не очень полезен
Кто-то ратует за Скрытые Марковские Модели, кто-то — за нейронные сети...не совсем корректна. Традиционно фонемы моделировались смесью гауссианов. Там действительно основной алгоритм — Витерби для цепей Маркова. В последнее время популярность приобрело глубокое обучение. Но в любом случае — всё это происходит на этапе распознавания фонем. На этапе моделирования языка для свободной речи обычно используют N-граммные языковые модели, где используются всё те же скрытые марковские модели.
Для того, что бы сохранить звуковой сигнал на цифровом носителе, его необходимо разбить на множество промежутков и взять некоторое «усредненное» значение на каждом из них.
Теперь возьмем в руки айфон/андроид и пройдёмся по L коллегам с просьбой продиктовать эти слова под запись. Далее поставим в соответствие (в какой-нибудь локальной БД или простом файле) каждому слову L наборов mfcc-коэффициентов соответствующих записей.
Распознавание речи для чайников