Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
проблема легко решается за счёт партиционирования на уровне приложения.Наихудшее из возможных на текущий момент решений.
Мы можем загрузить все данные в распределённую базу Oracle и работать с ними так же, как с активными. затем над каждым из них выполняется функция map, затем результаты сортируются, затем комбинируются, затем снова сортируются и наконец передаются функции reduce.Вы забыли смерджить и отсортировать данные на reducer'e. Да и не только.
Hadoop через какое-то время убьёт всё задание как сбойное.Какой жестокий Хадуп :)
Наихудшее из возможных на текущий момент решений.
Откуда столько денег? Вместо одно распределенной Oracle/Teradata DB можно купить Хадуп кластер на пол сотни машин. Ничто не мешает на этих же машинах гонять Storm, как вы упомянули в посте.
Вы забыли смерджить и отсортировать данные на reducer'e. Да и не только.
Какой жестокий Хадуп :)
mapred.task.timeout
Вы понимаете Hadoop неправильно