asash Sep 21 2015 at 15:47

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

6 min

542K

Big Data *

+44

Comments 35

zmey2 Sep 21 2015 at 16:25

Хотелось бы, чтобы каждый новый автор, решающий открыть миру глаза на Big Data, начинал со слов: " я заработал своей компании на Big Data XX млн, что подтверждено такой-то и такой аудированной отчетностью". Это даст импульс внимания со стороны читающей публики, а ряду читателей поможет сэкономить время

asash Sep 21 2015 at 16:32

Спасибо за комментарий по существу:)
Моей целью не является «открыть миру глаза», лишь систематизировать свои знания и поделиться ими с теми кому это интересно.

UFO landed and left these words here

asash Sep 21 2015 at 18:03

Я действительно занимаюсь преподавательской деятельностью и горжусь этим.
Но преподавательская деятельность не является моим основным занятием — это хобби и оно не приносит существенного дохода для меня.
Основная деятельность — разработка и проектирование систем связанных с большими данными, более конкретно о тем чем занимаюсь я и компания в которой я работаю можно прочитать в других статьях этого блога и просто поискав в интернете.
Меряться миллионами — это мне кажется не для хабра, а для forbes или ведомостей. Оценить уровень зарплат в сфере работы с данными можно посмотрев вакансии по соответствующим запросам на hh.ru, яндекс.работа и прочих сервисов. Как работадатель могу сказать, что на рынке существует существенный кадровый голод и найти сотрудника с нужными компетенциями очень-очень сложно и поиск сотрудника на позицию длится как правило месяцами.

zmey2 Sep 21 2015 at 19:03

То есть в вашем случае XX =0

asash Sep 21 2015 at 19:15

Нет.
Считаю бессмысленным дальнейшее обсуждение моих доходов в данной статье. Мне хватает на хлеб, а также масло и возможность съездить в отпуск.

zmey2 Sep 21 2015 at 19:19

Речь не про ваши доходы конечно, они меня не касаются. Просто хочется понять, вы преподаете, потому что… что?

asash Sep 21 2015 at 19:24

Потому что мне нравится преподавать. Я получаю удовольствие от того что делюсь знаниями с людьми. Мне нравится заводить новые знакомства, которые часто переходят в совместные проекты. Нравится наблюдать за формирующимся сообществом единомышленников.
До того как преподавать на курсах NPL я преподавал в кружках олимпиадного программирования — тоже не за деньги(естественно зарплата была, но весьма символическая).

zmey2 Sep 21 2015 at 19:28

Спасибо вам. Спасибо!

stack_trace Mar 11 2017 at 16:30

Del

Извините за невнимательность, ответ не вам

Informatik Sep 21 2015 at 17:06

У индейцев племени Пираха, живущих в тропических лесах Бразилии, в отдалении от цивилизации в языке имеются только три числительных, одно переводится примерно как «один-два», другое — «несколько» и третье — «гораздо больше». Последнее удивительным образом напоминает Big Data.

gr33tx Feb 16 2017 at 17:40

дохрена

grossws Sep 21 2015 at 17:45

Как и большинство таких публикаций — ни о чём. Писать статью «введение в MR» по содержанию меньше чем tutorial к hadoop'у — просто смешно.

Если хочется несколько погрузиться в тему, то сейчас на coursera есть интересный курс от Стэнфорда.

asash Sep 21 2015 at 17:50

Туториал по hadoop'у в следующей части. Считаю что правильно разбивать материал на порции на осознание которых не уйдет больше 20 минут. Если вы уже знали материал то для вас естественно статья «ниочем» :)
Ссылка хорошая, так же могу порекомендовать книжку на основании которой построен курс: www.mmds.org.

grossws Sep 21 2015 at 18:32

Да, книжка есть в описании курса.

А с подходом

Считаю что правильно разбивать материал на порции на осознание которых не уйдет больше 20 минут.

крайне не согласен. Проблемы:
— сильно замусоривает ленту;
— автор обычно исчезает в середине цикла.

Результат получается удручающий: в энный раз описаны тривиальные вещи, а до сложных так и не дошло. Возможно, у вас этого не случится, но пока статистика по многим циклам публикаций такова.

antaries Sep 21 2015 at 19:43

Злые вы все какие-то.
А мне понравилась статья. Даже несмотря на то, что почти все это я знал.
Изложено просто и понятно, читать приятно, без лишней воды. Есть ощущение, что автор действительно знает тему и потому, есть надежда, что цикл дойдет до сложных статей. Надежда на это подкупает.
Что касается того, что «обычно до сложных тем не доходит в циклах» — так может потому и не доходит, что все набрасываются за то, что цикл начинается с простого?

В общем, к автору обращаюсь с просьбой продолжать писать и завершить цикл, а не прервать его на середине.

asash Sep 21 2015 at 19:46

Спасибо!
Постараюсь не обмануть ожиданий :)

no_smoking Sep 22 2015 at 05:41

Я также поддержу, главное продолжайте читать очень легко и понятно, хочется узнать чем все закончилось :)

barbaris76 Apr 9 2021 at 13:59

Увы, обманули… :(
Часть 6 и т.д так и не появилась.

asash Apr 9 2021 at 15:05

Big Data от А до Я. Часть 2: Hadoop habr.com/ru/company/dca/blog/268277
Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений habr.com/ru/post/270453
Big Data от А до Я. Часть 4: Hbase habr.com/ru/company/dca/blog/280700
Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce habr.com/ru/post/283212
Big Data от A до Я. Часть 5.2: Продвинутые возможности hive habr.com/ru/company/dca/blog/305838

asash Apr 9 2021 at 15:09

А, вы про часть «6». Да, на пяти частях я остановился, но кажется на тот момент я покрыл более менее основные компоненты инфраструктуры hadoop.
Сейчас уже конечно не все из написанного актуально.

Weageoo Sep 22 2015 at 09:20

Мне тоже понравилось. Просто и ясно написано. Автор, давай ишчо!

RPG18 Sep 21 2015 at 21:45

Как-то странно читать про MapReduce, без ссылок на MapReduce: Simplied Data Processing on Large Clusters.

Интересно было бы почитать про потоковые алгоритмы обработки данных.

asash Sep 21 2015 at 21:51

До потоковой обработки тоже надеюсь дойдем.
Про то как мы занимаемся потоковой обработкой можно почитать в одной из наших предыдущих статей:
habrahabr.ru/company/dca/blog/260845

eMptywee Sep 21 2015 at 23:01

Спасибо, интересно. Еще было бы интересно, если бы осветили вопрос тюнинга нод в Hadoop-кластерах. Какие параметры есть, на что влияют и как крутить и при каких условиях и для каких задач. С точки зрения сисадминов и devops. Если, конечно же, знаете.

asash Sep 22 2015 at 04:03

В какой-то мере точно освятим тему тюнинга)

Mindstorms Sep 22 2015 at 00:21

Хорошая статья. Написано простым и понятным языком.

Продолжайте писать. :)

zamonier Sep 22 2015 at 08:15

Мне понравился стиль изложения. Объем тоже. Не слушайте критиков — пишите дальше!

Artiomtb Sep 22 2015 at 09:05

Для новичка в области BigData — то, что нужно, чтобы постичь общую суть и ознакомиться с принципами.

but Sep 22 2015 at 09:33

Спасибо, интересная тема, читабельный текст, не много букв )) Жду статью про Хадуп в таком же стиле.

donRumatta Oct 6 2015 at 17:38

А можно попродробнее насчет:

shuffle прозрачно для нас превращает это в пары (слово, [1,1,1,1,1,1])

Каков псевдокод этого метода?

asash Oct 6 2015 at 18:50

псевдокода нету, поскольку это делает MapReduce framework. По сути — происходит распределенная сортировка по ключу, а дальше объединение всех значений соответствующих одому ключу в список значений.

donRumatta Oct 6 2015 at 18:53

А почему бы не посчитать количество сразу на это этапе?

asash Oct 6 2015 at 19:11

этот этап не программируем. все равно чтобы посчитать количество вам понадобятся все записи. На самом деле, в ситуациях подобных данной результаты можно предагрегировать еще до передачи их на reducer — возспользоваться методом Combine, про который я расскажу в 3-ей части этого цикла статей.

dyadyaSerezha Apr 1 2016 at 16:26

«Hadoop-кластер Yahoo имеет более 42000 машин» — неверно. На момент публикации 42000 — это общее кол-во машин под Hadoop у Yahoo. На середину 2015 года максимальный кластер у них — 4500 машин при общем кол-ве около 100К.