All streams
Search
Write a publication
Pull to refresh
51
0

Пользователь

Send message
Кстати, а почему так? В основе какие-то технические причины или просто nvidia вовремя подсуетилась с довольно удобной CUDA — в отличие от?
Так как в серии прямым текстом речь идет об ip-адресе, можно было бы взять что-то в виде 203.0.113.0 — как раз зарезервировано для демонстрационных целей.
Знакомая картина. Особенно, когда профессор 85-ти лет начинает рассуждать про то, что это уже давно было в Симпсонах, и вообще — адаптивные фильтры решают все проблемы -)
Эта книга случаем не «Анафем» Стивенсона?
Очень важное нововведение было бы. Порой, без чего-то типа MathJax статью набирать крайне неудобно.
Смотрел только из любопытства — так-то я больше Python & R использую.
dplyr — это отдельная и интересная тема (как и параллельные версии из пакетов типа snow). А вот насчет встроенных *apply есть интересная дискуссия.
Если вы намекаете на использование *apply, то ускорению это особо не поможет, т.к. функции семейства apply — всего лишь обертка для цикла for.
модели на основе деревьев неспособны нормально воспринимать большие категориальные переменные

Часто помогает такой подход: значения в категориальной переменной заменяются целыми числами («a» -> 1, «b» -> 2...). Заодно feature space не разрастается, как при использовании dummy variables.
У меня такой вопрос: вы используете для обучения SGDRegressor и KMeans полный набор данных train, а потом же на этом же наборе с дополнительными переменными, полученными от SGDRegressor и KMeans обучаете XGBClassifier. Разве тут не должно быть переобучение XGBClassifier, который в качестве важных переменных воспримет только предсказания от SGDRegressor и KMeans?
Обычно для обучения вспомогательных моделей используют часть датасета, а основную модель обучают на второй части датасета + предсказания по этой второй части от вспомогательных моделей (как тут, например).
А есть у вас примеры, когда машина опорных векторов показала заметно лучшие результаты, чем RF/NN?
увеличение размера обучающей выборки приведёт к существенному улучшению качества модели

В отношении SVM такое утверждение не всегда верно: машина опорных векторов не очень хорошо масштабируется — особенно при большом количестве переменных. Другими словами, эмпирически можно подобрать более-менее оптимальное соотношение n.rows/n.features для SVM, но не по принципу «чем больше — тем лучше».
Из сравнительно недавних — соревнование на Kaggle: в датасете 41 фича, из них 37 анонимные (P* — неизвестно, что они на самом деле означают).

FS with genetic algorithm (5-fold CV): «P5»,«P13»,«P14»,«P16»,«P17»,«P18»,«P19»,«P20»,«P21»,«P23»,«P24»,«P27»,«P28»,«P30»,«P32»,«P33»,«P36».
FS with simulated annealing (5-fold CV): «P1»,«P2»,«P3»,«P4»,«P7»,«P8»,«P13»,«P17», «P20»,«P21»,«P22»,«P28»,«P34»,«P35»,«P37».

Нет, множества, конечно, в чем-то пересекаются, но сделать однозначный выбор на основе этих данных весьма трудно.

Проблема отбора фич очень неоднозначная — прежде всего потому, что разные методы могут давать диаметрально противоположные результаты: univariate filters дают один набор переменных, а, скажем, feature selection using genetic algorithms — совершенно другой. В R для модуля caret есть неплохой мануал по этой теме. Вот еще практическая реализация простого и относительно универсального метода «перетасовок».
Еще можно провести тест Рамсея, который покажет, что в этой регрессии есть пропущенные переменные (т.е. банально не хватает данных), а значит, все полученные оценки несостоятельные и смещенные.
Скрытый текст
lm0 <- lm(RubUsd~0+Brent, data=dat)
library(lmtest)
resettest(lm0)

	RESET test

data:  lm0
RESET = 89.0565, df1 = 2, df2 = 348, p-value < 2.2e-16

Тоже остановился на RPi, попробовав перед этим медиаплеер Egreat R6a и Android stick. На RPi поставил XBian и Retro Pi.
Предсказывать курс валют сейчас еще более неблагодарное дело, чем стоимость барреля :)

Information

Rating
Does not participate
Registered
Activity