khmelkoff May 7 2015 at 10:16

Распознавание физической активности пользователей с примерами на R

8 min

9.3K

R * Machine learning *

Tutorial

+12

Comments 12

ariel32 May 7 2015 at 15:42

Все стесняются, просмотры и добавление в избранное растут, а комментариев нет :)
Спасибо за статью в целом и за популяризацию R в частности! Было любопытно глянуть, равно как и предыдущую вашу публикацию.

khmelkoff May 8 2015 at 09:15

Спасибо на добром слове.

kenoma May 7 2015 at 15:45

А вы не пробовали снизить размерность данных перед обучением моделей? Например, с помощью метода главных компонент (PCA, princomp в R) можно было бы глазками посмотреть на то, как выглядит многообразие данных, а там уже решать, что эффективнее было бы применить.

khmelkoff May 8 2015 at 08:03

Нет, не пробовал. Интересовал только отбор переменных. Зато пробовал RFE, о чем в статье писать не стал. Неудачный опыт. 10 часов на трех ядрах, 60 отобранных признаков и точность в районе 0.8 на тестовой выборке, что на 10% хуже полного набора. Да, PCA встроен прямо в caret, вызывается через функцию preProcess.

kenoma May 8 2015 at 08:46

А эти признаки сильно разнятся от ранжирования признаков RF и SVM? Просто у меня есть подозрение, что ваши целевые кластеры могут быть не совсем «правильной» формы, ведь судя по описанию у вас куча признаков зависит друг от друга нелинейным образом. Так что мне кажется целесообразным было бы скомбинировать скоррелированные признаки и работать уже с ними. Но прежде всего я бы сделал какой нибудь разведочный анализ посредством визуализации данных — первые компоненты pca, t-sne или что там еще есть в caret. Вдруг вы увидите структуру, которая идеально впишется под разбор попсовыми методами кластеризации.

khmelkoff May 8 2015 at 09:20

Да, есть отличия. Но тенденция общая, на 50-60 «важных» признаках точность быстро растет, а потом выходит на плато. Но эти 50-60 признаков дают в районе 0.8. Я раньше всегда отбирал признаки через information gain, обычно получалось. Это ничем не хуже чем считать корреляцию. Тут igr падает от максимума до нуля практически равномерно по всему набору.

kenoma May 8 2015 at 11:10

Согласен, энтропийные показатели хороши в своем деле, однако я пытаюсь настойчиво намекнуть на мысль, что представление признаков у вас избыточное и есть такие, которые наверняка друг от дружки зависят. Или для вас принципиальным является вопрос, неизменности исходных признаков?

khmelkoff May 11 2015 at 14:22

Я считаю, что ребята старались не зря выдумывая переменные. И, скажем, мне не понятно, как связаны между собой мат.ожидание уровня сигнала и угол между векторами. Я попробую на этой неделе сделать PCA, о результатах напишу.

khmelkoff May 12 2015 at 14:21

Сделал PCA, см. update в статье. 102 компоненты при пороге в 0.95. Форест на 5% ниже, SVM на один с небольшим.

kenoma May 12 2015 at 16:02

Спасибо большое за апдейт! Хотя 102 компоненты это все равно многовато, но уже примерно в 4-5 раз меньше исходной размерности. На самом-то деле, тут много еще чего можно сделать, но я думаю, для поставленной задачи и без того хороший результат.

UFO landed and left these words here

khmelkoff May 8 2015 at 08:04

Спасибо, как раз думаю над этим.