codezombie13 сен 2012 в 10:54

Эластичный MapReduce. Распределенная реализация

8 мин

9.5K

Big Data *

Из песочницы

+12

Комментарии 6

phasma 13 сен 2012 в 21:51

А чо по тестам в сравнении с реальным железом?

GapCoder 14 сен 2012 в 04:33

Звучит очень интересно.
Исходя из того, что проект занимает 3000 строчек на Java,
они как минимум его еще не особо тестировали, даже если работает.

codezombie 14 сен 2012 в 08:48

У меня так же сложилось впечатление, что в проекте ~~слова~~ концепции опережают ~~дело~~ реализацию. Во всяком случае, проект до сих пор до версии 1.0 не 'дожил'. (Но это не умаляет инновационности идей, используемых в проекте).

relgames 14 сен 2012 в 06:13

Скажите, а в чем преимущество hadoop по сравнению с другими распределенными системами? Например, hazelcast тоже дает возможность распределенно выполнить задачу.

Вопрос не праздный, у нас большой кластер на Cassandra, данные как-то нужно анализировать. Я пробовал hadoop с поддержкой кассандры, очень тормозит. Hazelcast еще не пробовал.

codezombie 14 сен 2012 в 09:18

Не буду лукавить: по Hazelcast ничего конструктивного (в контексте сравнения с Hadoop) сказать не могу.

Но могу сказать:
0. самописные реализации по распределенной обработке, в ряде случае, могут показывать лучший результат, чем Hadoop (но писать / поддерживать / развивать такие реализации — немалые временные и финансовые издержки).
1. есть (проприетарный, надо полагать) проект Dryad (Dayota) от Microsoft, который, если мне не изменяет память, в этом году отсортировал петабайт данных качественно быстрее [на меньшем количестве вычислительных узлов за меньшее время], чем платформа Hadoop.

Про Cassandra:
если не секрет, поделитесь опытом: 'очень' это сколько по времени, на каком объеме данных и может какие-то особенности в запросах.

relgames 14 сен 2012 в 09:38

Пробовал на малых объемах, каюсь. Проблема в том, что чтобы что-то действительно попробовать, нужно разворачивать кластер, писать тесты — это все время.

Сейчас у нас 24 машины с кассандрой, на каждой 100-500 Гб данных
Запросы могут быть разные, от тех, где нужен быстрый ответ, до тех, где можно ночью задание запустить.

Коллеги как-то настороженно к hadoop относятся, его надо разворачивать, настраивать, интегрировать с кассандрой, а hazelcast уже есть, года 3, правда, только в качестве кэша. Вот я и спросил, есть ли какие преимущества, стоит ли вообще пробовать hadoop.

Hazelcast предостовляет свою реализацию ExecutorService, т.е. написал FutureTask, запустил — и готово, задания будут расползаться по кластеру, потом запуствиший поток получит результат. С Hadoop, насколько я понял, результат будет записан в HDFS, т.е. его еще надо будет как-то прочитать

Зарегистрируйтесь на Хабре, чтобы оставить комментарий