Этот синтаксис и был в 1.6.1, но он не настолько удобен, в sparklyr в одной конвейерной (ленивой операции) можно сразу, выбрать строки, отфильтровать колонки, изменить имена и тип данных колонок, сделать необходимые преобразования, трансформировать переменные и так далее, и все это в единой парадигме dplyr. В sparkR же каждая операция отдельная функция, которая выполняется своим способом. Какой-то сильно борьбы нет, да, в дистрибутиве Spark есть директория R, ну и что, мы просто игнорируем ее, и вместо sc<-sparkR.init(master = «yarn-client») будет sc < — spark_connect(master = «yarn-client»). Многие пакеты в R, и так делают общие вещи, каждый выбирает то, что удобнее.
Сомневаюсь, что SparkR перейдет на dplyr синтаксис и прочее. Скорее всего так и останется, SparkR будет развиваться Apache по остаточному принципу (даже во второй редакции реализовали 3 доп. модели, когда уже в самом Spark их больше десятка), а энтузиасты из RStudio писать свои функции к Spark.
Модели МО в Spark реализованы на Scala, а на Java и Python, впрочем как и на R (во всех трех вариантах), написаны функции-обертки вызывающие эти функции, что касается удобства, то у каждого свои приоритеты.
Это связано с реализацией алгоритма случайного леса в R,
он раскладывает датасет на все комбинации, а их число 2^N,
очевидно, что с ростом N вычислительная сложность слишком велика,
поэтому и введено данное ограничение.
Да, Вы правы, это связано с генерацией карты (она немного отличается от ландшафтного снимка с космоса), но полагаю, это не столь критично, основное это увидеть основные направления.
Не форбсы, а фортсы, и не развивают они игроманию,
если человек с лудоманией, он и так найдет ей применение,
а если голова нормально работает, то все будет хорошо.
В R после добавления переменной x2x3 переменные x2 и x3 можно в модели не указывать, т.е. будет y~x1+x2x3.
верно, а если оставлять в исходном виде (перемножение (взаимодействие) переменных, g <- glm(y ~ x1 + x2 + x3 + x2x3, data=df)), то использовать надо :, а не , так как * это комбинация факторов
строк 14 млн.
2. да, экспериментально
сложные проценты творят чудеса.
он раскладывает датасет на все комбинации, а их число 2^N,
очевидно, что с ростом N вычислительная сложность слишком велика,
поэтому и введено данное ограничение.
если человек с лудоманией, он и так найдет ей применение,
а если голова нормально работает, то все будет хорошо.
верно, а если оставлять в исходном виде (перемножение (взаимодействие) переменных, g <- glm(y ~ x1 + x2 + x3 + x2x3, data=df)), то использовать надо :, а не , так как * это комбинация факторов
что весьма значительно
https://habrahabr.ru/post/266319/