Comments 12
Все стесняются, просмотры и добавление в избранное растут, а комментариев нет :)
Спасибо за статью в целом и за популяризацию R в частности! Было любопытно глянуть, равно как и предыдущую вашу публикацию.
Спасибо за статью в целом и за популяризацию R в частности! Было любопытно глянуть, равно как и предыдущую вашу публикацию.
0
А вы не пробовали снизить размерность данных перед обучением моделей? Например, с помощью метода главных компонент (PCA, princomp в R) можно было бы глазками посмотреть на то, как выглядит многообразие данных, а там уже решать, что эффективнее было бы применить.
+1
Нет, не пробовал. Интересовал только отбор переменных. Зато пробовал RFE, о чем в статье писать не стал. Неудачный опыт. 10 часов на трех ядрах, 60 отобранных признаков и точность в районе 0.8 на тестовой выборке, что на 10% хуже полного набора. Да, PCA встроен прямо в caret, вызывается через функцию preProcess.
0
А эти признаки сильно разнятся от ранжирования признаков RF и SVM? Просто у меня есть подозрение, что ваши целевые кластеры могут быть не совсем «правильной» формы, ведь судя по описанию у вас куча признаков зависит друг от друга нелинейным образом. Так что мне кажется целесообразным было бы скомбинировать скоррелированные признаки и работать уже с ними. Но прежде всего я бы сделал какой нибудь разведочный анализ посредством визуализации данных — первые компоненты pca, t-sne или что там еще есть в caret. Вдруг вы увидите структуру, которая идеально впишется под разбор попсовыми методами кластеризации.
0
Да, есть отличия. Но тенденция общая, на 50-60 «важных» признаках точность быстро растет, а потом выходит на плато. Но эти 50-60 признаков дают в районе 0.8. Я раньше всегда отбирал признаки через information gain, обычно получалось. Это ничем не хуже чем считать корреляцию. Тут igr падает от максимума до нуля практически равномерно по всему набору.
0
Согласен, энтропийные показатели хороши в своем деле, однако я пытаюсь настойчиво намекнуть на мысль, что представление признаков у вас избыточное и есть такие, которые наверняка друг от дружки зависят. Или для вас принципиальным является вопрос, неизменности исходных признаков?
0
Я считаю, что ребята старались не зря выдумывая переменные. И, скажем, мне не понятно, как связаны между собой мат.ожидание уровня сигнала и угол между векторами. Я попробую на этой неделе сделать PCA, о результатах напишу.
0
Сделал PCA, см. update в статье. 102 компоненты при пороге в 0.95. Форест на 5% ниже, SVM на один с небольшим.
0
UFO just landed and posted this here
Sign up to leave a comment.
Распознавание физической активности пользователей с примерами на R