Как стать автором
Обновить

Комментарии 12

Все стесняются, просмотры и добавление в избранное растут, а комментариев нет :)
Спасибо за статью в целом и за популяризацию R в частности! Было любопытно глянуть, равно как и предыдущую вашу публикацию.
Спасибо на добром слове.
А вы не пробовали снизить размерность данных перед обучением моделей? Например, с помощью метода главных компонент (PCA, princomp в R) можно было бы глазками посмотреть на то, как выглядит многообразие данных, а там уже решать, что эффективнее было бы применить.
Нет, не пробовал. Интересовал только отбор переменных. Зато пробовал RFE, о чем в статье писать не стал. Неудачный опыт. 10 часов на трех ядрах, 60 отобранных признаков и точность в районе 0.8 на тестовой выборке, что на 10% хуже полного набора. Да, PCA встроен прямо в caret, вызывается через функцию preProcess.
А эти признаки сильно разнятся от ранжирования признаков RF и SVM? Просто у меня есть подозрение, что ваши целевые кластеры могут быть не совсем «правильной» формы, ведь судя по описанию у вас куча признаков зависит друг от друга нелинейным образом. Так что мне кажется целесообразным было бы скомбинировать скоррелированные признаки и работать уже с ними. Но прежде всего я бы сделал какой нибудь разведочный анализ посредством визуализации данных — первые компоненты pca, t-sne или что там еще есть в caret. Вдруг вы увидите структуру, которая идеально впишется под разбор попсовыми методами кластеризации.
Да, есть отличия. Но тенденция общая, на 50-60 «важных» признаках точность быстро растет, а потом выходит на плато. Но эти 50-60 признаков дают в районе 0.8. Я раньше всегда отбирал признаки через information gain, обычно получалось. Это ничем не хуже чем считать корреляцию. Тут igr падает от максимума до нуля практически равномерно по всему набору.
Согласен, энтропийные показатели хороши в своем деле, однако я пытаюсь настойчиво намекнуть на мысль, что представление признаков у вас избыточное и есть такие, которые наверняка друг от дружки зависят. Или для вас принципиальным является вопрос, неизменности исходных признаков?
Я считаю, что ребята старались не зря выдумывая переменные. И, скажем, мне не понятно, как связаны между собой мат.ожидание уровня сигнала и угол между векторами. Я попробую на этой неделе сделать PCA, о результатах напишу.
Сделал PCA, см. update в статье. 102 компоненты при пороге в 0.95. Форест на 5% ниже, SVM на один с небольшим.
Спасибо большое за апдейт! Хотя 102 компоненты это все равно многовато, но уже примерно в 4-5 раз меньше исходной размерности. На самом-то деле, тут много еще чего можно сделать, но я думаю, для поставленной задачи и без того хороший результат.
НЛО прилетело и опубликовало эту надпись здесь
Спасибо, как раз думаю над этим.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории