Comments / Profile of khmelkoff / Habr

Игорь Хмельков@khmelkoff

Data Scientist

Распознавание физической активности пользователей с примерами на R

khmelkoff May 8 2015 at 09:20

Да, есть отличия. Но тенденция общая, на 50-60 «важных» признаках точность быстро растет, а потом выходит на плато. Но эти 50-60 признаков дают в районе 0.8. Я раньше всегда отбирал признаки через information gain, обычно получалось. Это ничем не хуже чем считать корреляцию. Тут igr падает от максимума до нуля практически равномерно по всему набору.

Распознавание физической активности пользователей с примерами на R

khmelkoff May 8 2015 at 09:15

Спасибо на добром слове.

Распознавание физической активности пользователей с примерами на R

khmelkoff May 8 2015 at 08:04

Спасибо, как раз думаю над этим.

Распознавание физической активности пользователей с примерами на R

khmelkoff May 8 2015 at 08:03

Нет, не пробовал. Интересовал только отбор переменных. Зато пробовал RFE, о чем в статье писать не стал. Неудачный опыт. 10 часов на трех ядрах, 60 отобранных признаков и точность в районе 0.8 на тестовой выборке, что на 10% хуже полного набора. Да, PCA встроен прямо в caret, вызывается через функцию preProcess.

Мешок слов и сентимент-анализ на R

khmelkoff Apr 8 2015 at 07:20

Интересно, нужно будет попробовать.
При k-fold=5, ntree=100 и 3-х вариантах mtry получается 5 * 3 + 1 модель со 100 деревьями. 1 дерево на моем компьютере при 25000 наблюдениях и 5000 переменных строится в среднем 3 — 10 минут (зависит от mtry).
В итоге 16 * 100 * (3-10) мин.

Мешок слов и сентимент-анализ на R

khmelkoff Apr 7 2015 at 12:51

Спасибо, очень интересно!

Мешок слов и сентимент-анализ на R

khmelkoff Apr 7 2015 at 12:42

Спасибо. Исправил.

1 2