Pull to refresh
8K+
31
Игорь Хмельков@khmelkoff

Data Scientist

15
Rating
22
Subscribers
Send message
С сайта gensim: The training algorithms were originally ported from the C package code.google.com/p/word2vec and extended with additional functionality.

Единственное, чего не понял, почему они не используют оригинальную кластеризацию из word2vec и предлагают взять K-Means из scikit-learn вот в этом примере.
Да, спасибо. Пробовал и так, не нашел на что это влияет. В примере от разработчиков одна большая строка на 80 мегабайт: mattmahoney.net/dc/text8.zip
Сделал PCA, см. update в статье. 102 компоненты при пороге в 0.95. Форест на 5% ниже, SVM на один с небольшим.
Я считаю, что ребята старались не зря выдумывая переменные. И, скажем, мне не понятно, как связаны между собой мат.ожидание уровня сигнала и угол между векторами. Я попробую на этой неделе сделать PCA, о результатах напишу.
Да, есть отличия. Но тенденция общая, на 50-60 «важных» признаках точность быстро растет, а потом выходит на плато. Но эти 50-60 признаков дают в районе 0.8. Я раньше всегда отбирал признаки через information gain, обычно получалось. Это ничем не хуже чем считать корреляцию. Тут igr падает от максимума до нуля практически равномерно по всему набору.
Спасибо, как раз думаю над этим.
Нет, не пробовал. Интересовал только отбор переменных. Зато пробовал RFE, о чем в статье писать не стал. Неудачный опыт. 10 часов на трех ядрах, 60 отобранных признаков и точность в районе 0.8 на тестовой выборке, что на 10% хуже полного набора. Да, PCA встроен прямо в caret, вызывается через функцию preProcess.
Интересно, нужно будет попробовать.
При k-fold=5, ntree=100 и 3-х вариантах mtry получается 5 * 3 + 1 модель со 100 деревьями. 1 дерево на моем компьютере при 25000 наблюдениях и 5000 переменных строится в среднем 3 — 10 минут (зависит от mtry).
В итоге 16 * 100 * (3-10) мин.
Спасибо, очень интересно!
Спасибо. Исправил.

Information

Rating
550-th
Location
Москва, Москва и Московская обл., Россия
Registered
Activity