Как стать автором
Обновить
5.87

Hadoop *

Фреймворк для распределённых приложений

Сначала показывать
Порог рейтинга
Уровень сложности

Приглашаем на HadoopKitchen

Время на прочтение4 мин
Количество просмотров7.1K


Спешим сообщить вам о нашей новой инициативе, которая будет интересна как программистам, так и ряду других IT-специалистов: 27 сентября, в следующую субботу, в московском офисе Mail.Ru Group состоится первая встреча HadoopKitchen. Почему именно Hadoop и чем эта встреча может быть интересна непрограммистам?

  • Hadoop является центром настоящей экосистемы, с ним связаны многочисленные проекты и технологии.
  • Многие компании целиком полагаются на коммерческие дистрибутивы Hadoop.
  • Hadoop входит в продуктовые линейки почти всех крупных поставщиков информационных технологий, что говорит о его востребованности и популярности.

Программа первой Hadoop-встречи будет очень насыщенной, выступят аж четыре докладчика. Все они замечательные специалисты с большим опытом, которым хотят поделиться с аудиторией. Под катом читайте программу мероприятия и анонсы докладов.
Читать дальше →
Всего голосов 41: ↑33 и ↓8+25
Комментарии8

Oracle vs Teradata vs Hadoop

Время на прочтение4 мин
Количество просмотров23K
Эта статья нацелена на Большие и Очень большие Хранилища Данных, но для ровной картины в классификации немного упомянуты и маленькие.

Статья написана для специалистов, которые ценят главный критерий работы с базами данными — скорость. Речь пойдет о системах, нацеленных на грубый full scan (ораклисты уже напряглись, а терадатовцы радуются).

Давайте рассмотрим, под какой объем данных и работ лучше всего подходит Oracle или Hadoop/NoSQL.
Читать дальше →
Всего голосов 14: ↑8 и ↓6+2
Комментарии36

Поговорим за Hadoop

Время на прочтение10 мин
Количество просмотров57K
image

Введение

Как человеку с не очень устойчивой психикой, мне достаточно одного взгляда на картинку, подобную этой, для начала панической атаки. Но я решил, что страдать буду только сам. Цель статьи — сделать так, чтобы Hadoop выглядел не таким страшным.

Что будет в этой статье:

  • Разберем, из чего состоит фреймворк и зачем он нужен;
  • разберем вопрос безболезненного развертывания кластера;
  • посмотрим на конкретный пример;
  • немного коснемся новых фич Hadoop 2 (Namenode Federation, Map/Reduce v2).


Чего не будет в этой статье:

  • вообще статья обзорная, поэтому без сложностей;
  • не будем лезть в тонкости экосистемы;
  • не будем зарываться глубоко в дебри API;
  • не будем рассматривать все околоdevops-задачи.

Читать дальше →
Всего голосов 31: ↑20 и ↓11+9
Комментарии5

В чем польза ZooKeeper для админов и разработчиков. Семинар в Яндексе

Время на прочтение7 мин
Количество просмотров87K

Привет! Меня зовут Андрей Степачев. В конце прошлого года я выступил перед коллегами с небольшим рассказом о том, что такое ZooKeeper, и как его можно использовать. Доклад изначально был рассчитан на широкий круг аудитории и может быть полезен и разработчикам, и админам, желающим разобраться, как все это примерно работает.





Начнем, пожалуй, с истории появления ZooKeeper. Сначала, как известно, в Google написали сервис Chubby для управления своими серверами и их конфигурацией. Заодно решили задачу с распределенными блокировками. Но у Chubby была одна особенность: для захвата локов необходимо открывать объект, потом закрывать. От этого страдала производительность. В Yahoo посчитали, что им нужен инструмент, при помощи которого они могли бы строить различные системы для конфигураций своих кластеров. Именно в этом основная цель ZooKeeper — хранение и управление конфигурациями определенных систем, а локи получились как побочный продукт. В итоге вся эта система была создана для построения различных примитивных синхронизаций клиентским кодом. В самом ZooKeeper явных понятий подобных очередям нет, все это реализуется на стороне клиентских библиотек.


Стоит отметить, что протокол, используемый Zookeeper называется ZAB, ссылки на описания протокола приведены в конце статьи.



Читать дальше →
Всего голосов 58: ↑53 и ↓5+48
Комментарии22

Истории

Как проиндексировать логи бизнес-приложений в Hadoop (SolrCloud)

Время на прочтение12 мин
Количество просмотров6.9K

Введение


У одного из наших клиентов возникла задача вынести логи из большинства корпоративных приложений и их баз данных «куда-нибудь» — уж больно с ними много возни: растут как на дрожжах, чисти их периодически, а к некоторым еще и доступ должен быть обеспечен в течение многих лет, да еще и анализ хочется проводить системным образом. Конечно же, вынести логи – это не первичная цель, и по совокупности требований мы выбрали Hadoop, версию от Cloudera (CDH 5).

Требования указывали, что решение, помимо прочего, должно предоставлять возможность поиска и просмотра списка событий (из логов) по заданным критериям, причем желательно быстрого. Причем некоторые приложения также должны быть переделаны, чтобы формы просмотра логов стали использовать Hadoop вместо своих баз данных.

Как одно из решений — использовать поисковый модуль SolrCloud, который входит в комплект Hadoop от Cloudera. В Cloudera «из коробки» входят тулзы для выгрузки данных из баз данных приложений и их индексации пачкой (не построчно). Однако такой способ оказался хоть и рабочим, но более трудоемким и непредсказуемым в настройке, чем, скажем, если бы мы использовали Impala для выборки данных. Поэтому я решил поделиться как мы это делали, в надежде сэкономить время тем, кто столкнется с похожей задачей.

Эта статья описывает детали настройки, а также встреченные в процессе работы особенности.
Читать дальше →
Всего голосов 9: ↑6 и ↓3+3
Комментарии20

Lean Big Data на 6 сервисах Google

Время на прочтение5 мин
Количество просмотров20K
image

Здравствуй Хабр! Хочу рассказать как мы делали свою собственную Big Data.

Каждый стартап хочет собрать что-то дешевое, качественное и гибкое. Обычно так не бывает, но у нас, похоже, получилось! Ниже идёт описание нашего решения и много моего сугубо субъективного мнения по этому поводу.

И да, секрет в том, что используется 6 сервисов гугла и собственного кода почти не писалось.
Читать дальше →
Всего голосов 35: ↑29 и ↓6+23
Комментарии22

Hive vs Pig. На что мне столько ETL?

Время на прочтение8 мин
Количество просмотров19K
image

Лучше день потерять, но потом за пять минут долететь (с)



Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.
Читать дальше →
Всего голосов 25: ↑22 и ↓3+19
Комментарии38

Hadoop и автоматизация: Часть 3

Время на прочтение4 мин
Количество просмотров5.4K
Ну что ж, Хабражители, пришло время подытожить цикл статей (часть 1 и часть 2), посвященных моему приключению с автоматизацией развертывания Hadoop кластера.

Мой проект практически готов, осталось только оттестировать процесс и можно делать себе насечку на фюзеляже.
В этой статье я расскажу про поднятие «движущей силы» нашего кластера — Slaves, а также подведу итоги и предоставлю полезные ссылки на ресурсы, которыми я пользовался на протяжении своего проекта. Возможно, кому-то статьи показались скудными на исходный код и детали реализации, поэтому в конце статьи я предоставлю ссылку на Github
Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии2

Hadoop и автоматизация: Часть 2

Время на прочтение6 мин
Количество просмотров10K
Привет, Хабрапосетители!


Продолжаю свою «развеселую» серию статей, посвященных знакомству с Hadoop и автоматизации развертывания кластера.

В первой части я вкратце описал, что нужно было достичь, какую архитектуру кластера построить и что представляет собой Hadoop-кластер с точки зрения архитектуры. Также, я рассмотрел, наверное, самую простую часть кластера — Clients, которая отвечает за постановку задач, предоставление данных для вычислений и получение результатов.
Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии6

Hadoop и автоматизация: Часть 1

Время на прочтение5 мин
Количество просмотров13K
Привет, коллеги!

Последние пару недель я трудился над интереснейшим (с моей точки зрения) занятием, которое представляло собой создание Hadoop-as-a-Service решения для приватного облака нашей компании. В первую очередь мне было интересно, что же за зверь Hadoop, почему так часто сейчас слышны сочетания слов Big Data и Hadoop. Для меня знакомство с Hadoop началось с чистого листа. Конечно же, я не являлся и не явлюясь Big Data специалистом, посему вдавался в суть на столько, на сколько необходимо было для понимания процессов в разрезе автоматизации развертывания кластера.
Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии6

Повышение скорости обработки данных с помощью локальности данных в Hadoop

Время на прочтение4 мин
Количество просмотров5.2K
Автор: Андрей Лазарев

Одним из главных узких мест в вычислениях, требующих обработки больших объемов данных, является сетевой трафик, проходящий через коммутатор. К счастью, выполнение map-кода на том узле, где находятся данные, делает данную проблему намного менее серьезной. Такой метод, именуемый «локальностью данных», – одно из главных преимуществ модели Hadoop Map/Reduce.
Читать дальше →
Всего голосов 8: ↑6 и ↓2+4
Комментарии0

PaaS-стратегия OpenStack

Время на прочтение8 мин
Количество просмотров6.2K
Автор: Алекс Фридлaнд

От переводчика: в данной статье рассматриваются два противоположных взгляда на вопрос, угрожает ли развитие OpenStack индустрии PaaS или нет.
Читать дальше →
Всего голосов 10: ↑7 и ↓3+4
Комментарии2

Как обрабатывать терабайты данных в 1000 потоков на PHP — Hadoop/MapReduce

Время на прочтение6 мин
Количество просмотров35K
Всем привет!

Уже слышали про Bigdata? Ну да, веб растет, данных становится больше и их нужно держать под контролем и периодически анализировать. Базы данных — лопаются под нагрузкой, реляционная теория не совсем справляется с задачей, нужно решение. Маркетинг активно давит сверху, а железо острыми углами — снизу и попахивает суицидом.

В этом посте постараюсь дать конкретные работающие рецепты и куски кода с краткими теоретическими выводами, как же обрабатывать >=терабайты в >=1000 потоков на PHP. Чтобы можно было взять и решить задачу, не теряя времени и не забивая голову теорией.

Однако, если вдруг стало подташнивать и закружилась голова, можно дальше не читать — а полюбоваться на прекрасных птичек и забыть о вышенаписанном. Но будьте на чеку, Bigdata может завтра взять и постучаться в дверь ;-)

Читать дальше →
Всего голосов 61: ↑37 и ↓24+13
Комментарии52

Ближайшие события

Небольшой тест производительности Hadoop/Mapreduce

Время на прочтение2 мин
Количество просмотров4.4K
Давным давно задался себе вопросом «На сколько эфективно работает MapReduce ?»

Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:
— 3 ноды: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
— 1 нода: Intel Xeon CPU X5450 @ 3.00GHz. 8GB RAM

Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE).

Исходные данные:
— ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
— в распакованом состоянии файл занимает 18ГБ места.
— 31М записей о страничках в вики.
— Bzip2 сжимает этот файл в 2ГБ
— 593.045.627 строк в файле
Читать дальше →
Всего голосов 15: ↑5 и ↓10-5
Комментарии9

Hadoop, часть 3: Pig, обработка данных

Время на прочтение8 мин
Количество просмотров26K
des-48-5

В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное.

Для обработки данных в Hadoop используется технология MapReduce.
Читать дальше →
Всего голосов 28: ↑27 и ↓1+26
Комментарии26

Дайджест новостей платформы Windows Azure, февраль 2014

Время на прочтение12 мин
Количество просмотров4K

image



В рамках этого дайджеста новостей облачной платформы Windows Azure собраны основные анонсы для разработчиков, ИТ-профессионалов и для всех специалистов интересующихся облачными технологиями и платформой Windows Azure.



В этом выпуске:


  • Запущены новые региональные дата-центры Windows Azure.
  • Представлен новый сервис ExpressRoute – частные сети от ЦОД к Windows Azure.
  • Снижение цен на сервис рассылки пуш-уведомлений Notification Hubs.
  • Представлены цены и сроки доступности инструментов Oracle в Windows Azure
  • Web Sites. Поддержка бэкапа и восстановления сайтов
  • Mobile Services. Поддержка серверного кода на .NET. Интеграция с Notification Hubs. Поддержка PhoneGap. Client SDK.
  • HDInsight (Hadoop). Поддержка Hadoop 2.2
  • Java-разработка. Обновление инструментов разработчика
  • Управление и мониторинг. Уведомления о сбоях платформы на портале. Увеличение лимита на количество соадминистраторов. Новые командлеты PowerShell.
  • Виртуальные машины. Поддержка VM Agent и сервиса фоновой информации.
  • Active Directory. Еще больше SaaS-сервисов в каталоге. Отчетность. Управление группами.
  • BizTalk Services. Поддержка протокола EDIFACT. Интеграция с шиной Service Bus. Бэкап и восстановление.
  • Дополнительно. Бесплатные книги. Летняя школа Microsoft Research. Windows Azure – миллионам болельщиков.
Читать дальше →
Всего голосов 22: ↑14 и ↓8+6
Комментарии0

Интервью с Сергеем Лукьяновым, техническим лидером проекта OpenStack Savanna

Время на прочтение7 мин
Количество просмотров3.6K
Беседовал Рафаэль Кнут (Rafael Knuth)

Представляем вам 10-е интервью из серии бесед с техническими руководителями проектов инициативы OpenStack в блоге Mirantis. Наша цель – обучение как можно большего числа членов технического сообщества и содействие понимаю того, каким образом можно внести вклад в OpenStack и как извлечь выгоду из него. Разумеется, ниже изложена точка зрения интервьюируемого, а не компании Mirantis.
Читать дальше →
Всего голосов 7: ↑6 и ↓1+5
Комментарии0

OpenStack нужна не одна «шляпа»

Время на прочтение6 мин
Количество просмотров7K
Автор: Ник Чейс

Похоже, становится модным ругать OpenStack. Это естественно, каждая технология испытывает болезнь роста, когда она уже достаточно продвинутая, чтобы люди захотели ее использовать, но не настолько продвинутая, чтобы оправдать 100% ожиданий всех и каждого.
Читать дальше →
Всего голосов 11: ↑8 и ↓3+5
Комментарии6

Настройка маленького кластера Hadoop 2.2.0 с нуля

Время на прочтение7 мин
Количество просмотров61K


В данной статье будет по шагам разобран процесс создания небольшого кластера Hadoop для опытов.

Несмотря на то, что в интернете на иностранных ресурсах есть полно материала про настройку/развертывание Hadoop, большинство из них либо описывают настройку ранних версий (0.X.X и 1.X.X), либо описывают только настройку в режиме single mode/pseudo distributed mode и лишь частично fully distributed mode. На русском языке материала практически нет вовсе.

Когда мне самому понадобился Hadoop, то я далеко не с первого раза смог все настроить. Материал был неактуален, часто попадались конфиги, которые используют deprecated параметры, поэтому использовать их нежелательно. А даже когда все настроил, то задавался многими вопросами, на которые искал ответы. Также встречались похожие вопросы у других людей.

Всем кому интересно, прошу пожаловать по кат.
Подробности
Всего голосов 21: ↑20 и ↓1+19
Комментарии10

IBM PureData для Hadoop: чем эта система может мне помочь?

Время на прочтение2 мин
Количество просмотров6.1K
Сегодня в компаниях информация выстраивается и хранится, как правило, несколькими способами и на нескольких платформах. Данные существуют в неструктурированном, неоптимизированном виде, что не позволяет извлекать из них информацию, необходимую для принятия стратегически важных решений. Роль Больших данных в этом сценарии заключается в возможности собирать такую информацию из различных входных данных, структурировать ее и выдавать данные для использования при анализе, при принятии решений и при работе со средствами предиктивной аналитики. Новейшая из систем IBM PureSystems объединяет в себе концепцию «Больших данных» и решение Apache Hadoop, исходя именно из таких задач.
Читать дальше →
Всего голосов 19: ↑17 и ↓2+15
Комментарии5