@alizar23 июн 2011 в 11:22

Spark: дата-майнинг до 30x быстрее Hadoop

3 мин

10K

Data Mining * Hadoop *

+23

Комментарии 7

@DanielWolf 23 июн 2011 в 12:56

интересно, а блоках биткойна 30х он сделает?

@Kindman 23 июн 2011 в 12:59

А, на php к нему можно подключиться?

@whynot 23 июн 2011 в 13:32

Круто, давайте на пыхе еще научные вычисления делать. Хотя, судя по вопросу, вы или полный и беспросветный даун (ПОДКЛЮЧИТЬСЯ НА ПХП К ФРЕЙМВОРКУ ДЛЯ КЛАСТЕРНЫХ ВЫЧИСЛЕНИЙ??777) или что-то еще. Хотя нет, первый вариант.

@xhumanoid 23 июн 2011 в 13:58

рассматривая hadoop мы имеем thrift интерфейс, а следовательно:
1. доступ на hdfs
2. доступ к состоянию джобов и их управление
3. доступ к hive и как следсвие sql-подобному языку для выполнения запросов на mr

А учитывая, что thrift может скомпилить схему и под php, то получаем доступ к кластеру хоть из пыха, хоть из си, хоть с питона.

Не путайте возможность подключения и отправку запросов на выполнение и сами вычисления.

@xhumanoid 23 июн 2011 в 13:41

основная фишка в том, что часто используемые данные кешируются в
памяти, у хадупа как таковое главный тормоз это hdfs, в качестве постоянного хранилища у этого sparky используется… упс hdfs или s3 от amazon, в итоге стоит данным не влезть в память и сразу же мы в какашке.

В данный момент hadoop уже достаточно имеет поддержки на уровне больших кампаний, а фреймворков которые превосходят по тестам hadoop более чем достаточно.

очередной пример — piccolo.news.cs.nyu.edu/ (извиняюсь ссылку на хабр найти не могу, точно знаю что уже проскакивала она где-то здесь)

правда там таже проблема — все данные в памяти и мы рады, а вот что делать если данные в память не влазят?

@xhumanoid 23 июн 2011 в 13:42

не стоит думать что я имею что-то против него, но каждый следующий фреймворк кичится что я быстрее hadoop, забывая что hadoop это не только MapReduce, а целый стек технологий.

@Ghostwriter 23 июн 2011 в 14:21

>Увеличение производительности до 30х возможно на специфических задачах, в которых идёт постоянное обращение к одному и тому же набору данных.

Может следовало не писать отдельный фреймворк, а сделать контриб-патч в сам hadoop?..

Зарегистрируйтесь на Хабре, чтобы оставить комментарий