IBM PureData для Hadoop: чем эта система может мне помочь?

    Сегодня в компаниях информация выстраивается и хранится, как правило, несколькими способами и на нескольких платформах. Данные существуют в неструктурированном, неоптимизированном виде, что не позволяет извлекать из них информацию, необходимую для принятия стратегически важных решений. Роль Больших данных в этом сценарии заключается в возможности собирать такую информацию из различных входных данных, структурировать ее и выдавать данные для использования при анализе, при принятии решений и при работе со средствами предиктивной аналитики. Новейшая из систем IBM PureSystems объединяет в себе концепцию «Больших данных» и решение Apache Hadoop, исходя именно из таких задач.

    Библиотека Apache Hadoop производит распределенную обработку больших наборов данных. Для этого используются простые модели программирования под Hadoop. Основное назначение Hadoop – обеспечить управление процессами обработки данных на множестве серверов и их синхронизацию, но только за счет программного обеспечения, убрав управление на кластерном, аппаратном уровне.

    Система IBM PureData для Hadoop разрабатывалась с учетом такого подхода в плане аппаратного и программного обеспечения, подготовленного для облачной архитектуры. Все преимущества и особенности Hadoop объединяются с поддержкой и простым администрированием, которые может предложить PureData.

    Для обеспечения интеграции Hadoop и данной системы были объединены IBM InfoSphere BigInsights и серверы IBM System x; таким образом, программное обеспечение для обработки больших наборов данных интегрировано в простом с точки зрения администрирования комплексе, а обновления производятся компанией IBM для всего вычислительного комплекса. Связываться с какими-либо сторонними службами поддержки аппаратных средств и ПО Hadoop не нужно.

    Если необходимо выстроить среду с высокой готовностью, интегрированную и оптимизированную под повышение производительности, то взяв бесплатно распространяемую версию Hadoop, вы столкнетесь с множеством трудностей. В системе PureData для Hadoop вся эта функциональность уже есть, она также полностью интегрирована с другими аппаратными решениями PureSystems, которые вы возможно уже используете. Это важные моменты, которые необходимо учитывать, выбирая между платным и бесплатным решением. Было много примеров внедрения, где использовались сложные инструменты с открытым кодом, требовавшие огромных навыков написания собственного дополнительного программного обеспечения для достижения требуемой функциональности. В итоге, когда разработчики переходили на другие проекты или в другие компании, возникали проблемы. Может показаться, что такое коммерческое предложение, как PureData для Hadoop, – альтернатива дорогая, но в долгосрочной перспективе вы сможете сэкономить время и деньги на обновлениях, поддержке и интеграции с уже имеющимися системами.

    Источник: PureSystems blog.
    • +15
    • 5,9k
    • 5
    IBM
    118,43
    Компания
    Поделиться публикацией

    Комментарии 5

      +2
      Было бы интересно посмотреть на сравнение этого решения с Oracle Exastack
        +1
        И то, и другое — x86 сервера, на которых запускается Apache Hadoop и прочие компоненты экосистемы Hadoop (Hive, HBase, Pig, etc.). В случае IBM это их собственная сборка, в случае Oracle — это Cloudera Hadoop. Отличаются от дистрибутива Apache они дополнительным функционалом в контексте мониторинга кластера и прочих мелких автоматизаций вроде упрощения процесса внесения изменения в параметры Hadoop через веб-морду.

        У каждого из вендоров обязательная фишка — он интегрируется с другими продуктами того же вендора. То есть если у вас есть DB2 или Netezza — очевидным решением будет IBM, если есть Oracle или Exadata — стоит брать Oracle.

        Конечно, это всё платформы для крупного энтерпрайза (и железо, и софт поддерживается одним вендором, что очень любят банки и телеком), готового платить за open-source софт сотни тысяч долларов в год, чтобы иметь возможность получить поддержку в случае проблем. Про качество же поддержки open-source продуктов и в частности Hadoop можно почитать в статье Mail.ru о их приключениях с CDH
          0
          У Оракла же SPARC, а не x86, нет?
            +1
            Что в Oracle Big Data Appliance, что в Exadata стоит Intel Xeon: Big Data Appliance , Exadata
            Работает под Oracle Unbreakable Linux, что по сути RHEL
              0
              О, спасибо. Будем знать.

      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

      Самое читаемое