Storm («Hadoop в реальном времени») теперь Open Source

    Как и обещалось, Twitter выложил на github распределённую систему обработки данных в реальном времени Storm (от компании BackType). Теперь это проект open source.

    В пояснительной записке автор проекта Натан Марц объясняет, что за последнее десятилетие такие технологии как MapReduce, Hadoop и проч. произвели настоящую революцию в области обработки больших объёмов данных. К сожалению, они никак не предназначены для работы realtime. Storm предалагет альтернативное решение. Фактически, Storm можно назвать «Hadoop в реальном времени», здесь реализована такая же схема с набором базовых примитивов. Это чрезвычайно надёжная и масштабируемая система с поддержкой любых языков программирования, устанавливается одной строчкой на Amazon EC2.

    Ближайшим аналогом для Storm можно считать S4 (разработка Yahoo). Главное отличие Storm в том, что он не теряет данные и проще в использовании.

    Натан Марц (Nathan Marz) — ведущий программист компании BackType, которую купил Twitter в июле 2011 года. В комментариях на HN он даёт список ресурсов, которые могут пригодиться при работе Storm.

    Документация wiki: github.com/nathanmarz/storm/wiki
    Установка одним кликом на EC2: github.com/nathanmarz/storm-deploy
    Адаптер для использования сервера обработки очередей сообщений Kestrel в связке со Storm: github.com/nathanmarz/storm-kestrel
    Обучающий проект с примерами топологий, которые можно запустить в локальном режиме: github.com/nathanmarz/storm-starter
    Лист рассылки, где Натан Марц отвечает на вопросы: groups.google.com/group/storm-user
    • +28
    • 5,6k
    • 5
    Поделиться публикацией

    Комментарии 5

      0
      hstreaming.com/ вот вам real-time Hadoop

      Built on Apache Hadoop, HStreaming adds unparalleled real-time data processing and analytics capabilities to this leading batch-processing platform.
        0
        Дык unparalleled же
          0
          То был посыл на вот эти строки из новости:
          К сожалению, они никак не предназначены для работы в реальном режиме времени, и нет способа сделать realtime-систему на Hadoop.
            +2
            HStreaming — это очень хитрая штука. Там от Hadoop по сути только API: т.е. идея в том, чтобы существующие алгоритмы, написанные под mapreduce интерфейсы и классы Hadoop безболезненно переносить в новую среду. Самого Hadoop (т.е. демонов, HDFS и т.д.) там практически нет — их заменяет некая проприетарная система, которая запускает в своем контексте mappers и reducers, соединяет их, таскает между ними данные, позволяет смотреть на результаты, обновляющиеся в реальном времени и т.д.

            Оно всё бы ничего, но продукт закрытый, проприетарный и их цены очень кусачие. 1.5-2$ за час работы кластера из, допустим, хотя бы 50 машин — это ~2000$ в день или ~60000$ в месяц (не говоря уже о том, что данные нужно таскать в Штаты и обратно и это всё небесплатно).

            Для сравнения — если закупить такой физический кластер и поставить у себя (условно — 100K-120K$) — он окупится за 2 месяца работы.
            +7
            unparalleled — (общ.) беспримерный, не имеющий аналогов, непревзойденный

            А отнюдь не «не умеющий работать параллельно».

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое