Comments / Profile of kxx / Habr

Пользователь

CNTK — нейросетевой инструментарий от Microsoft Research

kxx Jan 27 2016 at 17:31

Кстати, а почему так? В основе какие-то технические причины или просто nvidia вовремя подсуетилась с довольно удобной CUDA — в отличие от?

Look

Инструменты для взлома, мелькавшие в сериале Mr Robot

kxx Jan 13 2016 at 20:40

Так как в серии прямым текстом речь идет об ip-адресе, можно было бы взять что-то в виде 203.0.113.0 — как раз зарезервировано для демонстрационных целей.

Look

Обзор примера применения обучения с подкреплением с использованием TensorFlow

kxx Jan 11 2016 at 17:16

Знакомая картина. Особенно, когда профессор 85-ти лет начинает рассуждать про то, что это уже давно было ~~в Симпсонах~~, и вообще — адаптивные фильтры решают все проблемы -)

Look

Инструменты для взлома, мелькавшие в сериале Mr Robot

kxx Jan 9 2016 at 12:49

Тут получше видно.

Look

«Иная» логика и обратимые вычисления

kxx Jan 8 2016 at 13:44

Эта книга случаем не «Анафем» Стивенсона?

Look

Инструменты для взлома, мелькавшие в сериале Mr Robot

kxx Jan 7 2016 at 13:37

Не совсем про взлом, но забавно.

"Мы забрали его жёсткие диски":

Look

Возвращение блудных хабов

kxx Dec 24 2015 at 21:04

Очень важное нововведение было бы. Порой, без чего-то типа MathJax статью набирать крайне неудобно.

Look

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

kxx Nov 28 2015 at 10:34

Смотрел только из любопытства — так-то я больше Python & R использую.

Look

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

kxx Nov 27 2015 at 17:00

dplyr — это отдельная и интересная тема (как и параллельные версии из пакетов типа snow). А вот насчет встроенных *apply есть интересная дискуссия.

Look

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

kxx Nov 27 2015 at 16:50

Есть, кстати, GNU вариация на тему SPSS — PSPP

Look

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

kxx Nov 26 2015 at 20:47

Если вы намекаете на использование *apply, то ускорению это особо не поможет, т.к. функции семейства apply — всего лишь обертка для цикла for.

Look

Как я победил в конкурсе BigData от Beeline

kxx Nov 26 2015 at 19:41

модели на основе деревьев неспособны нормально воспринимать большие категориальные переменные

Часто помогает такой подход: значения в категориальной переменной заменяются целыми числами («a» -> 1, «b» -> 2...). Заодно feature space не разрастается, как при использовании dummy variables.

Look

Как я победил в конкурсе BigData от Beeline

kxx Nov 8 2015 at 21:48

У меня такой вопрос: вы используете для обучения SGDRegressor и KMeans полный набор данных train, а потом же на этом же наборе с дополнительными переменными, полученными от SGDRegressor и KMeans обучаете XGBClassifier. Разве тут не должно быть переобучение XGBClassifier, который в качестве важных переменных воспримет только предсказания от SGDRegressor и KMeans?
Обычно для обучения вспомогательных моделей используют часть датасета, а основную модель обучают на второй части датасета + предсказания по этой второй части от вспомогательных моделей (как тут, например).

Look

Об одной задаче Data Science

kxx Sep 15 2015 at 12:16

А есть у вас примеры, когда машина опорных векторов показала заметно лучшие результаты, чем RF/NN?

Look

Об одной задаче Data Science

kxx Sep 12 2015 at 17:12

увеличение размера обучающей выборки приведёт к существенному улучшению качества модели

В отношении SVM такое утверждение не всегда верно: машина опорных векторов не очень хорошо масштабируется — особенно при большом количестве переменных. Другими словами, эмпирически можно подобрать более-менее оптимальное соотношение n.rows/n.features для SVM, но не по принципу «чем больше — тем лучше».

Look

Методы отбора фич

kxx Aug 17 2015 at 20:54

Из сравнительно недавних — соревнование на Kaggle: в датасете 41 фича, из них 37 анонимные (P* — неизвестно, что они на самом деле означают).

FS with genetic algorithm (5-fold CV): «P5»,«P13»,«P14»,«P16»,«P17»,«P18»,«P19»,«P20»,«P21»,«P23»,«P24»,«P27»,«P28»,«P30»,«P32»,«P33»,«P36».
FS with simulated annealing (5-fold CV): «P1»,«P2»,«P3»,«P4»,«P7»,«P8»,«P13»,«P17», «P20»,«P21»,«P22»,«P28»,«P34»,«P35»,«P37».

Нет, множества, конечно, в чем-то пересекаются, но сделать однозначный выбор на основе этих данных весьма трудно.

Look

Методы отбора фич

kxx Aug 17 2015 at 14:49

Проблема отбора фич очень неоднозначная — прежде всего потому, что разные методы могут давать диаметрально противоположные результаты: univariate filters дают один набор переменных, а, скажем, feature selection using genetic algorithms — совершенно другой. В R для модуля caret есть неплохой мануал по этой теме. Вот еще практическая реализация простого и относительно универсального метода «перетасовок».

Look

Поиск взаимосвязей на примере Нефть-Рубль

kxx Mar 18 2015 at 19:31

Еще можно провести тест Рамсея, который покажет, что в этой регрессии есть пропущенные переменные (т.е. банально не хватает данных), а значит, все полученные оценки несостоятельные и смещенные.

Скрытый текст

lm0 <- lm(RubUsd~0+Brent, data=dat)
library(lmtest)
resettest(lm0)

	RESET test

data:  lm0
RESET = 89.0565, df1 = 2, df2 = 348, p-value < 2.2e-16

Look

Обзор и очеловечивание Android-приставки Tronsmart Orion r28 Pro

kxx Jan 27 2015 at 19:46

Тоже остановился на RPi, попробовав перед этим медиаплеер Egreat R6a и Android stick. На RPi поставил XBian и Retro Pi.

Look

Нефтяные ряды в R

kxx Dec 17 2014 at 11:42

Предсказывать курс валют сейчас еще более неблагодарное дело, чем стоимость барреля :)

Look

1 2 ...

8 9

11 12 13