Hadoop: решение реальных задач

    Привет вам, дорогие хабралюди (и просто люди, ибо различий я делать не стремлюсь). Возникла у меня тут мысль написать большую статью про Hadoop. Причем не просто статью, а статью, которая будет описывать реальную (ну или практически реальную) задачу, которая вполне может оказаться нужной и интересной уважаемым хабрапользователям — если быть точнее, статистический анализ очень большого объема данных, например, английской Википедии (дамп весит 24 Гб или около того).

    Тут сразу несколько проблем. Во-первых, дамп Википедии — это XML. Работать с XML на Hadoop — это то еще удовольствие, однако если разобраться, то все не так плохо. Во-вторых, это еще не большой, но уже существенный объем данных — надо начинать думать о размере сплита, количестве map-тасков, и т.д. Третья проблема — скорее всего, я буду описывать разработку системы для «облачного» кластера, который где-то находится, но ни настраивать, ни администрировать ничего не надо — к сожалению, не у всех есть доступ к таким системам, поэтому неплохо было бы написать для начала как можно сконфигурировать простенький, но настоящий кластер.

    Есть такой интерес у пользователей? Тема интересная, и я искренне верю, что в задачах, где требуется обработка очень больших объемов информации, грид-вычисления это вообще чуть ли не единственный разумный выход сразу по нескольким причинам. В свой блог я периодически кидаю всяческие гиковские наблюдения и мысли на тему Hadoop, но писать в личный блог и писать в Хабр — это, согласитесь, две большие разницы.

    Ну так вот. Если интересно — отпишитесь, и я постепенно начну.

    Update: в качестве задачи предлагается вычисление tf-idf — по-моему вполне нормальный пример (к тому же имеющий массу практических применений).

    Update2: а статья уже готова :-) завтра отчитаю ее еще разок и выложу.

    Update3: sigizmund.habrahabr.ru/blog/74792
    Поделиться публикацией

    Похожие публикации

    Комментарии 10

    • НЛО прилетело и опубликовало эту надпись здесь
        +1
        Ну значит постепенно приступлю. В принципе, уже есть план — о чем надо писать и в каком порядке.
      +1
      Как установить hadoop можно почитать, например, здесь: www.insight-it.ru/net/scalability/hadoop-dlya-razrabotchika/
      Про практическое применение с удовольствием почитаю!
        0
        У меня есть предложение опробовать реальную задачу, которую мне в ближайшем будущем придётся решать — огромное кол-во пользовательских фоток (соц-сеть) c равным кол-вом фоток размерами 3.5-5KB, 20-30KB и 70-100KB. Нужна отказоустойчивая система с кол-вом реплик 3 и соотвественно http доступ к этому всему делу из вне. Помимо меня, вам огромное кол-во народу спасибо скажет :)
        Как бонус, потом будет ещё и видео хостинг.
        З.Ы. Пока из того, что я знаю, лучший вариант MogileFS, но что-то я сомневаюсь то 10-20TB+ для неё посильно…
          +1
          Это не задача для Hadoop, а просто cloud storage. Так что это не по моей части ;-)
          +1
          Супер, давно хотел почитать про Hadoop. Я дамп Вики анализировал с помощью Xalan, XMLStarlet и PHP + MySQL :)

        Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

        Самое читаемое