asash9 ноя 2015 в 09:45

Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений

7 мин

89K

Big Data * Hadoop * Веб-разработка *

+22

Комментарии 5

dec0 9 ноя 2015 в 10:55

Спасибо.

Более того, hadoop не гарантирует того, что комбинирующая функция вообще будет выполнена для выхода mapper’a. Поэтому комбинирующая функция не всегда применима, например, в случае поиска медианного значения по ключу.

Вот этот момент можно было бы поподробнее расписать.

asash 9 ноя 2015 в 11:09

Для того чтобы найти медиану необходимо отсортировать все значения в порядке возрастания и выбрать элемент находящийся посередине. Для того чтобы ключи отсортировать — надо знать все значения, относящиеся к ключу. Поэтому это сделать можно только в редьюсере. Комбайнер агрегирует только часть значений, поэтому не применим в случае вычисления медианы.

0xSS 5 дек 2016 в 15:45

т.е. сам hadoop не вносит никаких ограничений на использование комбайнера и будет его выполнять при каждом запросе, а ограничение заключается в самой задаче?

eaa 9 ноя 2015 в 11:43

Интересует вопрос профилирования MapReduce-задач — какими средствами это делается.

asash 9 ноя 2015 в 15:53

Профилировать можно по-разному. Самый простой способ — локальная отладка и профилирование mapper'a и reducer'a на локальных данных.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий