Печально, что после прочтения поста, вы решили, что это для меня "открытие". Применить можно все ко всему, как вы и сказали. Хоть прямо на битах все обучай. Интересно то, какие результаты подобные методы выдают, насколько требовательны к датасету, сколько времени тратится на обучение.
На самом деле, после долгой работы с CNN в сегментации изображений, Вы открыли мне, что они еще и со звуком хорошо заходят. Я думал, к звуку больше рекуррентные относят. Но гугл меня и вправду обеспечил чтивом на несколько выходных вперед)
Не уверен, что CNN стоит проверять на том же столь малом датасете, где меньше сотни песен. Насколько мне известно, CNN выигрывает на гигантских датасетах, уступая на мелких сетах тем же SVM и деревьям.
В любом случае, проверить это можно лишь на практике)
Спасибо за критику! Про магию библиотек не совсем понял. Копаться внутри тех же hmmlearn, python_speech_features/librosa пришлось долго и неприятно. Насчет shuffle, да, я не решился пока написать полноценное теоретическое обоснование этого выбора. В остальном, к сожалению, согласен. Статей много — приложений мало. Унывать не будем, тема интересная, и идей еще много)
Отличная тема!) У самого тоже есть скрипт на проверку работы сечений в numpy массивах, постоянно забываю, когда и как они там делятся, копируются
Печально, что после прочтения поста, вы решили, что это для меня "открытие". Применить можно все ко всему, как вы и сказали. Хоть прямо на битах все обучай. Интересно то, какие результаты подобные методы выдают, насколько требовательны к датасету, сколько времени тратится на обучение.
Не уверен, что CNN стоит проверять на том же столь малом датасете, где меньше сотни песен. Насколько мне известно, CNN выигрывает на гигантских датасетах, уступая на мелких сетах тем же SVM и деревьям.
В любом случае, проверить это можно лишь на практике)