Comments / Profile of atikhonov / Habr

@atikhonov

%>%

ProfileArticles9PostsNewsComments148

R и Spark

atikhonov Aug 25 2016 at 20:11

Vendor_id — это оператор такси, в желтом такси NY их два — Creative Mobile Technologies и VeriFone Inc.
строк 14 млн.

Look

R и Spark

atikhonov Aug 25 2016 at 19:24

1. в R реализациях нет, только написав свои циклы, или же вызывая непосредственно методы Java
2. да, экспериментально

Look

R и Spark

atikhonov Aug 25 2016 at 18:27

Этот синтаксис и был в 1.6.1, но он не настолько удобен, в sparklyr в одной конвейерной (ленивой операции) можно сразу, выбрать строки, отфильтровать колонки, изменить имена и тип данных колонок, сделать необходимые преобразования, трансформировать переменные и так далее, и все это в единой парадигме dplyr. В sparkR же каждая операция отдельная функция, которая выполняется своим способом. Какой-то сильно борьбы нет, да, в дистрибутиве Spark есть директория R, ну и что, мы просто игнорируем ее, и вместо sc<-sparkR.init(master = «yarn-client») будет sc < — spark_connect(master = «yarn-client»). Многие пакеты в R, и так делают общие вещи, каждый выбирает то, что удобнее.

Look

R и Spark

atikhonov Aug 25 2016 at 17:05

Сомневаюсь, что SparkR перейдет на dplyr синтаксис и прочее. Скорее всего так и останется, SparkR будет развиваться Apache по остаточному принципу (даже во второй редакции реализовали 3 доп. модели, когда уже в самом Spark их больше десятка), а энтузиасты из RStudio писать свои функции к Spark.

Look

R и Spark

atikhonov Aug 25 2016 at 16:20

Модели МО в Spark реализованы на Scala, а на Java и Python, впрочем как и на R (во всех трех вариантах), написаны функции-обертки вызывающие эти функции, что касается удобства, то у каждого свои приоритеты.

Look

Топ-100 статей по машинному обучению и анализу данных

atikhonov Aug 12 2016 at 11:13

не выползти, баланс же 80%

Look

Машинное обучение для прогнозирования тенниса: часть 1

atikhonov Aug 4 2016 at 06:27

Да, действительно, при таких вводных, проигрывать надо реже, чем в 3.66% случаях, если больше, то да, уже итоговый минус

Look

Машинное обучение для прогнозирования тенниса: часть 1

atikhonov Aug 3 2016 at 12:15

можно так: budget((1-0.02)+0.02(1+ROI))^2173=5211.422
сложные проценты творят чудеса.

Look

Лучшие пакеты для машинного обучения в R, часть 2

atikhonov Aug 3 2016 at 06:27

Это связано с реализацией алгоритма случайного леса в R,
он раскладывает датасет на все комбинации, а их число 2^N,
очевидно, что с ростом N вычислительная сложность слишком велика,
поэтому и введено данное ограничение.

Look

Лучшие пакеты для машинного обучения в R, часть 2

atikhonov Aug 1 2016 at 08:30

Обходится легко — трансформацией факторов в дамми (0,1) переменные.

Look

Лучшие пакеты для машинного обучения в R, часть 1

atikhonov Jul 16 2016 at 10:40

Есть несколько, в частности, mxnet

Look

Панамские документы. С миру по нитке

atikhonov May 16 2016 at 11:18

Да, Вы правы, это связано с генерацией карты (она немного отличается от ландшафтного снимка с космоса), но полагаю, это не столь критично, основное это увидеть основные направления.

Look

Развертывание стека Django на Ubuntu в облаке Microsoft Azure

atikhonov Apr 21 2016 at 15:19

еще и в инкогнито;)

Look

Социальное неравенство и зарплаты чиновников

atikhonov Apr 13 2016 at 06:41

верно, главное exp

Look

Социальное неравенство и зарплаты чиновников

atikhonov Apr 12 2016 at 12:43

Доходы населения моделируют распределением Парето обычно

Look

Шесть подработок для ИТ-специалиста, за которые платят в долларах

atikhonov Mar 18 2016 at 13:07

Не форбсы, а фортсы, и не развивают они игроманию,
если человек с лудоманией, он и так найдет ей применение,
а если голова нормально работает, то все будет хорошо.

-11

Look

Линейные модели: простая регрессия

atikhonov Mar 18 2016 at 07:12

В R после добавления переменной x2x3 переменные x2 и x3 можно в модели не указывать, т.е. будет y~x1+x2x3.
верно, а если оставлять в исходном виде (перемножение (взаимодействие) переменных, g <- glm(y ~ x1 + x2 + x3 + x2x3, data=df)), то использовать надо :, а не , так как * это комбинация факторов

Look

Как самостоятельно проанализировать рынок труда

atikhonov Mar 17 2016 at 12:23

разница в оценках будет в 15%-20%,
что весьма значительно

Look

Как самостоятельно проанализировать рынок труда

atikhonov Mar 7 2016 at 13:43

К слову, и столбиковые диаграммы тоже вызывают скепсис у некоторых людей, занимающихся анализом данных.

Look

Как самостоятельно проанализировать рынок труда

atikhonov Mar 7 2016 at 08:29

да, через API нельзя, но разбором страничек вполне:
https://habrahabr.ru/post/266319/