Супер профи — видите что статья не вашего уровня, идите читайте ассемблерный код в HEX. Зачем высказывать свое фи, когда ясно что это серия статей и материал подан довольно круто? Мне как человеку не писавшему ничего realtime статья понравилась.
Приложение Shazam именно так распознает песни. Оно разбивает песню на куски, а затем использует преобразование Фурье, чтобы определить ноты, из которых состоит каждый кусок.
Оказывается, хорошо работают пики спектрограммы, выделенные тем или иным способом — например как точки локального максимума амплитуды. Высота пиков не подходит (АЧХ микрофона их меняет), а вот их местоположение на сетке «частота-время» мало меняется при зашумлении. Это наблюдение, в том или ином виде, используется во многих известных решениях — например, в Echoprint. В среднем на один трек получается порядка 300 тыс. пиков — такой объём данных гораздо более реально сопоставлять с миллионами треков в базе, чем полную спектрограмму запроса.
вот «на сетке «частота-время»» — это же как я понимаю обычная «волна» которую мы видим в любом редакторе аудио? то есть без преобразования?
А у Яндекса к примеру другой подход к вычленению данных которые идентифицируют трек: habrahabr.ru/company/yandex/blog/181219/
вот «на сетке «частота-время»» — это же как я понимаю обычная «волна» которую мы видим в любом редакторе аудио? то есть без преобразования?
Что то мне подсказывает что получился алгоритм сравнения похожести двух документов по шинглам http://habrahabr.ru/post/65944/
<article>
используется, молодцы