Так как в серии прямым текстом речь идет об ip-адресе, можно было бы взять что-то в виде 203.0.113.0 — как раз зарезервировано для демонстрационных целей.
Знакомая картина. Особенно, когда профессор 85-ти лет начинает рассуждать про то, что это уже давно было в Симпсонах, и вообще — адаптивные фильтры решают все проблемы -)
модели на основе деревьев неспособны нормально воспринимать большие категориальные переменные
Часто помогает такой подход: значения в категориальной переменной заменяются целыми числами («a» -> 1, «b» -> 2...). Заодно feature space не разрастается, как при использовании dummy variables.
У меня такой вопрос: вы используете для обучения SGDRegressor и KMeans полный набор данных train, а потом же на этом же наборе с дополнительными переменными, полученными от SGDRegressor и KMeans обучаете XGBClassifier. Разве тут не должно быть переобучение XGBClassifier, который в качестве важных переменных воспримет только предсказания от SGDRegressor и KMeans?
Обычно для обучения вспомогательных моделей используют часть датасета, а основную модель обучают на второй части датасета + предсказания по этой второй части от вспомогательных моделей (как тут, например).
увеличение размера обучающей выборки приведёт к существенному улучшению качества модели
В отношении SVM такое утверждение не всегда верно: машина опорных векторов не очень хорошо масштабируется — особенно при большом количестве переменных. Другими словами, эмпирически можно подобрать более-менее оптимальное соотношение n.rows/n.features для SVM, но не по принципу «чем больше — тем лучше».
Проблема отбора фич очень неоднозначная — прежде всего потому, что разные методы могут давать диаметрально противоположные результаты: univariate filters дают один набор переменных, а, скажем, feature selection using genetic algorithms — совершенно другой. В R для модуля caret есть неплохой мануал по этой теме. Вот еще практическая реализация простого и относительно универсального метода «перетасовок».
Еще можно провести тест Рамсея, который покажет, что в этой регрессии есть пропущенные переменные (т.е. банально не хватает данных), а значит, все полученные оценки несостоятельные и смещенные.
в Симпсонах, и вообще — адаптивные фильтры решают все проблемы -)Часто помогает такой подход: значения в категориальной переменной заменяются целыми числами («a» -> 1, «b» -> 2...). Заодно feature space не разрастается, как при использовании dummy variables.
Обычно для обучения вспомогательных моделей используют часть датасета, а основную модель обучают на второй части датасета + предсказания по этой второй части от вспомогательных моделей (как тут, например).
В отношении SVM такое утверждение не всегда верно: машина опорных векторов не очень хорошо масштабируется — особенно при большом количестве переменных. Другими словами, эмпирически можно подобрать более-менее оптимальное соотношение n.rows/n.features для SVM, но не по принципу «чем больше — тем лучше».
FS with genetic algorithm (5-fold CV): «P5»,«P13»,«P14»,«P16»,«P17»,«P18»,«P19»,«P20»,«P21»,«P23»,«P24»,«P27»,«P28»,«P30»,«P32»,«P33»,«P36».
FS with simulated annealing (5-fold CV): «P1»,«P2»,«P3»,«P4»,«P7»,«P8»,«P13»,«P17», «P20»,«P21»,«P22»,«P28»,«P34»,«P35»,«P37».
Нет, множества, конечно, в чем-то пересекаются, но сделать однозначный выбор на основе этих данных весьма трудно.