Spark – проект
Apache, предназначенный для кластерных вычислений, представляет собой быструю и универсальную среду для обработки данных, в том числе и для машинного обучения.
Spark также имеет
API и для
R(пакет
SparkR), который входит в сам дистрибутив
Spark. Но, помимо работы с данным
API, имеется еще два альтернативных способа работы со
Spark в
R. Итого, мы имеем три различных способа взаимодействия с кластером Spark. В данном посте приводиться обзор основных возможностей каждого из способов, а также, используя один из вариантов, построим простейшую модель машинного обучения на небольшом объеме текстовых файлов (3,5 ГБ, 14 млн. строк) на кластере
Spark развернутого в
Azure HDInsight.