asash Oct 5 2015 at 16:10

Big Data от А до Я. Часть 2: Hadoop

9 min

224K

DCA (Data-Centric Alliance) corporate blogBig Data*Hadoop*

Tutorial

+32

Comments 8

NetBUG Oct 6 2015 at 00:02

> С ростом популярности Hadoop появились компании (такие как Cloudera, Hortonworks, MapR), которые предоставляют собственные сборки Hadoop и мощные средства для управления Hadoop-кластером.
> В нашем цикле материалов мы будем пользоваться сборкой Hadoop от компании Cloudera.
Несмотря на то, что выбор мне кажется разумным для студентов, которые первый раз увидят консоль, аргументированность выбора просто потрясает.

asash Oct 6 2015 at 07:07

Большой разницы что использовать нет. Я использую ту технологию, в которой у меня больше опыта. Для того чтобы разобрать отличия между различными нужно проводить исследование. Возможно у меня когда-то дойдут руки и до этого, но пока мне кажется разница не принципиальной.

unkinddragon Oct 29 2015 at 07:50

А вы бы что посоветовали выбрать?

grossws Oct 6 2015 at 14:44

Расскажите, пожалуйста, каким образом Apache Cassandra является одним из проектов "непосредственно связанных с Hadoop, но не входящих в Hadoop core"?

Cassandra не использует hdfs и yarn. Она может выступать как hadoop inputformat/outputformat, но то же самое относится ещё к куче баз и форматов.

asash Oct 6 2015 at 16:45

Вы правы, cassandra не использует yarn и hdfs. На самом деле грань «непосредственности» очень тонкая. Чтобы не придумывать ее самому — я взял несколько примеров с оффициального сайта hadoop (http://hadoop.apache.org/) из раздела «hadoop related projects». Cassandra там есть.

grossws Oct 6 2015 at 22:18

Точнее сказать, там указаны hadoop-related projects at Apache, т. е. проекты имеющие отношение к hadoop в рамках пула проектов ASF. И Cassandra, как относящаяся к bigdata-стеку Apache, имеет отношение к hadoop, как одно из интегрируемых с hadoop MR input/output formats.

При этом Cassandra развивается независимо, имеет других коммитеров (только 1 из 28 также является коммитером hadoop). PMC совсем не пересекаются. Мне не понравилась ваша формулировка.

AlexanderRS Apr 17 2018 at 14:50

Вероятно, не очень актуальный комментарий, но оставлю.
По крайней мере, приложение на Java, работает некорректно.
команда:

./hdfs dfs -text /lenta_wordcount/* | sort -n -k2,2 | tail -n5

дает такой результат:

Как я понимаю, не корректно работает reduce.

AlexanderRS Apr 18 2018 at 08:43

Собственно, причина оказалась в том, что метод reduce был перегружен, а не наследовался от соответствующего метода класса Reducer. Правильная сигнатура:

@Override
protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {