Комментарии 6
А чо по тестам в сравнении с реальным железом?
Звучит очень интересно.
Исходя из того, что проект занимает 3000 строчек на Java,
они как минимум его еще не особо тестировали, даже если работает.
Исходя из того, что проект занимает 3000 строчек на Java,
они как минимум его еще не особо тестировали, даже если работает.
Скажите, а в чем преимущество hadoop по сравнению с другими распределенными системами? Например, hazelcast тоже дает возможность распределенно выполнить задачу.
Вопрос не праздный, у нас большой кластер на Cassandra, данные как-то нужно анализировать. Я пробовал hadoop с поддержкой кассандры, очень тормозит. Hazelcast еще не пробовал.
Вопрос не праздный, у нас большой кластер на Cassandra, данные как-то нужно анализировать. Я пробовал hadoop с поддержкой кассандры, очень тормозит. Hazelcast еще не пробовал.
Не буду лукавить: по Hazelcast ничего конструктивного (в контексте сравнения с Hadoop) сказать не могу.
Но могу сказать:
0. самописные реализации по распределенной обработке, в ряде случае, могут показывать лучший результат, чем Hadoop (но писать / поддерживать / развивать такие реализации — немалые временные и финансовые издержки).
1. есть (проприетарный, надо полагать) проект Dryad (Dayota) от Microsoft, который, если мне не изменяет память, в этом году отсортировал петабайт данных качественно быстрее [на меньшем количестве вычислительных узлов за меньшее время], чем платформа Hadoop.
Про Cassandra:
если не секрет, поделитесь опытом: 'очень' это сколько по времени, на каком объеме данных и может какие-то особенности в запросах.
Но могу сказать:
0. самописные реализации по распределенной обработке, в ряде случае, могут показывать лучший результат, чем Hadoop (но писать / поддерживать / развивать такие реализации — немалые временные и финансовые издержки).
1. есть (проприетарный, надо полагать) проект Dryad (Dayota) от Microsoft, который, если мне не изменяет память, в этом году отсортировал петабайт данных качественно быстрее [на меньшем количестве вычислительных узлов за меньшее время], чем платформа Hadoop.
Про Cassandra:
если не секрет, поделитесь опытом: 'очень' это сколько по времени, на каком объеме данных и может какие-то особенности в запросах.
Пробовал на малых объемах, каюсь. Проблема в том, что чтобы что-то действительно попробовать, нужно разворачивать кластер, писать тесты — это все время.
Сейчас у нас 24 машины с кассандрой, на каждой 100-500 Гб данных
Запросы могут быть разные, от тех, где нужен быстрый ответ, до тех, где можно ночью задание запустить.
Коллеги как-то настороженно к hadoop относятся, его надо разворачивать, настраивать, интегрировать с кассандрой, а hazelcast уже есть, года 3, правда, только в качестве кэша. Вот я и спросил, есть ли какие преимущества, стоит ли вообще пробовать hadoop.
Hazelcast предостовляет свою реализацию ExecutorService, т.е. написал FutureTask, запустил — и готово, задания будут расползаться по кластеру, потом запуствиший поток получит результат. С Hadoop, насколько я понял, результат будет записан в HDFS, т.е. его еще надо будет как-то прочитать
Сейчас у нас 24 машины с кассандрой, на каждой 100-500 Гб данных
Запросы могут быть разные, от тех, где нужен быстрый ответ, до тех, где можно ночью задание запустить.
Коллеги как-то настороженно к hadoop относятся, его надо разворачивать, настраивать, интегрировать с кассандрой, а hazelcast уже есть, года 3, правда, только в качестве кэша. Вот я и спросил, есть ли какие преимущества, стоит ли вообще пробовать hadoop.
Hazelcast предостовляет свою реализацию ExecutorService, т.е. написал FutureTask, запустил — и готово, задания будут расползаться по кластеру, потом запуствиший поток получит результат. С Hadoop, насколько я понял, результат будет записан в HDFS, т.е. его еще надо будет как-то прочитать
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Эластичный MapReduce. Распределенная реализация