alizar 20 сен 2011 в 17:54

Storm («Hadoop в реальном времени») теперь Open Source

1 мин

6.1K

Как и обещалось, Twitter выложил на github распределённую систему обработки данных в реальном времени Storm (от компании BackType). Теперь это проект open source.

В пояснительной записке автор проекта Натан Марц объясняет, что за последнее десятилетие такие технологии как MapReduce, Hadoop и проч. произвели настоящую революцию в области обработки больших объёмов данных. К сожалению, они никак не предназначены для работы realtime. Storm предалагет альтернативное решение. Фактически, Storm можно назвать «Hadoop в реальном времени», здесь реализована такая же схема с набором базовых примитивов. Это чрезвычайно надёжная и масштабируемая система с поддержкой любых языков программирования, устанавливается одной строчкой на Amazon EC2.

Ближайшим аналогом для Storm можно считать S4 (разработка Yahoo). Главное отличие Storm в том, что он не теряет данные и проще в использовании.

Натан Марц (Nathan Marz) — ведущий программист компании BackType, которую купил Twitter в июле 2011 года. В комментариях на HN он даёт список ресурсов, которые могут пригодиться при работе Storm.

Документация wiki: github.com/nathanmarz/storm/wiki
Установка одним кликом на EC2: github.com/nathanmarz/storm-deploy
Адаптер для использования сервера обработки очередей сообщений Kestrel в связке со Storm: github.com/nathanmarz/storm-kestrel
Обучающий проект с примерами топологий, которые можно запустить в локальном режиме: github.com/nathanmarz/storm-starter
Лист рассылки, где Натан Марц отвечает на вопросы: groups.google.com/group/storm-user

Теги:

Хабы:

Высокая производительность

Storm («Hadoop в реальном времени») теперь Open Source

Публикации

Истории

Ближайшие события