atikhonov Aug 25 2016 at 13:54

R и Spark

8 min

10K

Big Data * Microsoft Azure * R * High performance * Machine learning *

+17

Comments 12

nickolas_php Aug 25 2016 at 15:52

А что Вы можете сказать по поводу удобства построения моделей на Spark c помощью языка Scala, Java или Python? Ведь, сюдя по документации, все перечисленные модели (Linear regression, logistic regression, Survival regression, Decision trees, Random forests, Gradient-Boosted Trees, Principal component analysis, Multilayer perceptron, Latent Dirichlet allocation, One-vs-Rest classifier) там реализованы.
Ссылки на документацию:
http://spark.apache.org/docs/latest/ml-classification-regression.html
http://spark.apache.org/docs/latest/mllib-ensembles.html
http://spark.apache.org/docs/latest/mllib-dimensionality-reduction.html

atikhonov Aug 25 2016 at 16:20

Модели МО в Spark реализованы на Scala, а на Java и Python, впрочем как и на R (во всех трех вариантах), написаны функции-обертки вызывающие эти функции, что касается удобства, то у каждого свои приоритеты.

nickolas_php Aug 25 2016 at 16:51

Как Вы думаете есть ли смысл ожидать, что большинство кода с этого пакета послужит основой для существенного расширения списка доступных моделей в SparkR? Ведь работы над SparkR ведутся давно и вроде как поддержка этого проекта такой компанией как RStudio являлось бы хорошим стимулом к развитию. Вместо этого мы видим отдельный продукт, который повторяет цели уже существующего Open source решения.

atikhonov Aug 25 2016 at 17:05

Сомневаюсь, что SparkR перейдет на dplyr синтаксис и прочее. Скорее всего так и останется, SparkR будет развиваться Apache по остаточному принципу (даже во второй редакции реализовали 3 доп. модели, когда уже в самом Spark их больше десятка), а энтузиасты из RStudio писать свои функции к Spark.

nickolas_php Aug 25 2016 at 17:31

Кстати, вроде как в SparkR 2.0.0 они реализовали «синтаксис манипулирования данными» аналогичный к dplyr о чём они пишут в документации: https://spark.apache.org/docs/latest/sparkr.html (...similar to R data frames, dplyr) И возможно уже SparkR и не является настолько неудобным? Если Я правильно понял, то как раз реализация интерфейса, аналогичного с dplyr, и наличия разработок в пакете sparklyr, как раз и позволят относительно легко и быстро реализовать необходимые модели МО и недостающего функционала в SparkR. Очень хотелось бы иметь решение в виде одной целестной экосистемы. Как Я понял мы наблюдаем борьбу двух стандартов: Экосистема вокруг RStudio и экосистема распределённых вычислений на базе Hadoop.

atikhonov Aug 25 2016 at 18:27

Этот синтаксис и был в 1.6.1, но он не настолько удобен, в sparklyr в одной конвейерной (ленивой операции) можно сразу, выбрать строки, отфильтровать колонки, изменить имена и тип данных колонок, сделать необходимые преобразования, трансформировать переменные и так далее, и все это в единой парадигме dplyr. В sparkR же каждая операция отдельная функция, которая выполняется своим способом. Какой-то сильно борьбы нет, да, в дистрибутиве Spark есть директория R, ну и что, мы просто игнорируем ее, и вместо sc<-sparkR.init(master = «yarn-client») будет sc < — spark_connect(master = «yarn-client»). Многие пакеты в R, и так делают общие вещи, каждый выбирает то, что удобнее.

puffer Aug 25 2016 at 19:19

Возможно ли для алгоритмов Spark'a автоматически подбирать гиперпараметры моделей, через caret например?
Есть ли сохранение моделей в файл, что бы например в продакшене (где уже используется Scala) загрузить и использовать уже обученную модель?

atikhonov Aug 25 2016 at 19:24

1. в R реализациях нет, только написав свои циклы, или же вызывая непосредственно методы Java
2. да, экспериментально

jzha Aug 25 2016 at 19:59

Спасибо за публикацию!

У меня есть пара вопрос по данным.
Уточните, пожалуйста, что означает величина vendor_id?
Какое число строк в базе taxi.filtered?
Полученные результаты подгонки модели, видимо, лишний раз подтверждают, что в данных с большим числом наблюдений за действиями (или мнениями) людей каждый «чих» является статистически значимым с точки зрения фишеровского подхода. Это я о p-value значениях slope-коэффицентов модели.

atikhonov Aug 25 2016 at 20:11

Vendor_id — это оператор такси, в желтом такси NY их два — Creative Mobile Technologies и VeriFone Inc.
строк 14 млн.

jzha Aug 25 2016 at 20:19

Ясно, спасибо.
Из сообщения в посте подумал, что 14 млн. строк — это все данные за 1 месяц.

atikhonov Aug 25 2016 at 20:28

На самом деле, да, 14 млн. строк это все данные за 1 месяц, но у меня были модели и на 100% выборки и с типом платежа, а здесь около 8 млн.