Как стать автором

Hadoop *

Фреймворк для распределённых приложений

Статьи Посты Новости Авторы Компании

TeamMRG 18 сен 2014 в 13:43

Приглашаем на HadoopKitchen

4 мин

7.1K

Блог компании VKВысокая производительность*Big Data*Hadoop*

Спешим сообщить вам о нашей новой инициативе, которая будет интересна как программистам, так и ряду других IT-специалистов: 27 сентября, в следующую субботу, в московском офисе Mail.Ru Group состоится первая встреча HadoopKitchen. Почему именно Hadoop и чем эта встреча может быть интересна непрограммистам?

Hadoop является центром настоящей экосистемы, с ним связаны многочисленные проекты и технологии.
Многие компании целиком полагаются на коммерческие дистрибутивы Hadoop.
Hadoop входит в продуктовые линейки почти всех крупных поставщиков информационных технологий, что говорит о его востребованности и популярности.

Программа первой Hadoop-встречи будет очень насыщенной, выступят аж четыре докладчика. Все они замечательные специалисты с большим опытом, которым хотят поделиться с аудиторией. Под катом читайте программу мероприятия и анонсы докладов.

Читать дальше →

+25

skullodrom 3 сен 2014 в 12:33

Oracle vs Teradata vs Hadoop

4 мин

23K

Oracle*Big Data*Hadoop*

Из песочницы

Эта статья нацелена на Большие и Очень большие Хранилища Данных, но для ровной картины в классификации немного упомянуты и маленькие.

Статья написана для специалистов, которые ценят главный критерий работы с базами данными — скорость. Речь пойдет о системах, нацеленных на грубый full scan (ораклисты уже напряглись, а терадатовцы радуются).

Давайте рассмотрим, под какой объем данных и работ лучше всего подходит Oracle или Hadoop/NoSQL.

Читать дальше →

+2

DataArt 29 авг 2014 в 20:20

Поговорим за Hadoop

10 мин

57K

Блог компании DataArtJava*Big Data*Hadoop*

Туториал

Введение

Как человеку с не очень устойчивой психикой, мне достаточно одного взгляда на картинку, подобную этой, для начала панической атаки. Но я решил, что страдать буду только сам. Цель статьи — сделать так, чтобы Hadoop выглядел не таким страшным.

Что будет в этой статье:

Разберем, из чего состоит фреймворк и зачем он нужен;
разберем вопрос безболезненного развертывания кластера;
посмотрим на конкретный пример;
немного коснемся новых фич Hadoop 2 (Namenode Federation, Map/Reduce v2).

Чего не будет в этой статье:

вообще статья обзорная, поэтому без сложностей;
не будем лезть в тонкости экосистемы;
не будем зарываться глубоко в дебри API;
не будем рассматривать все околоdevops-задачи.

Читать дальше →

+9

octo47 23 авг 2014 в 16:33

В чем польза ZooKeeper для админов и разработчиков. Семинар в Яндексе

7 мин

87K

Блог компании ЯндексПрограммирование*Hadoop*

Привет! Меня зовут Андрей Степачев. В конце прошлого года я выступил перед коллегами с небольшим рассказом о том, что такое ZooKeeper, и как его можно использовать. Доклад изначально был рассчитан на широкий круг аудитории и может быть полезен и разработчикам, и админам, желающим разобраться, как все это примерно работает.

Начнем, пожалуй, с истории появления ZooKeeper. Сначала, как известно, в Google написали сервис Chubby для управления своими серверами и их конфигурацией. Заодно решили задачу с распределенными блокировками. Но у Chubby была одна особенность: для захвата локов необходимо открывать объект, потом закрывать. От этого страдала производительность. В Yahoo посчитали, что им нужен инструмент, при помощи которого они могли бы строить различные системы для конфигураций своих кластеров. Именно в этом основная цель ZooKeeper — хранение и управление конфигурациями определенных систем, а локи получились как побочный продукт. В итоге вся эта система была создана для построения различных примитивных синхронизаций клиентским кодом. В самом ZooKeeper явных понятий подобных очередям нет, все это реализуется на стороне клиентских библиотек.

Стоит отметить, что протокол, используемый Zookeeper называется ZAB, ссылки на описания протокола приведены в конце статьи.

Читать дальше →

+48

plinyar 20 авг 2014 в 20:16

Как проиндексировать логи бизнес-приложений в Hadoop (SolrCloud)

12 мин

6.9K

Блог компании CUSTISOpen source*Big Data*Hadoop*

Recovery Mode

Введение

У одного из наших клиентов возникла задача вынести логи из большинства корпоративных приложений и их баз данных «куда-нибудь» — уж больно с ними много возни: растут как на дрожжах, чисти их периодически, а к некоторым еще и доступ должен быть обеспечен в течение многих лет, да еще и анализ хочется проводить системным образом. Конечно же, вынести логи – это не первичная цель, и по совокупности требований мы выбрали Hadoop, версию от Cloudera (CDH 5).

Требования указывали, что решение, помимо прочего, должно предоставлять возможность поиска и просмотра списка событий (из логов) по заданным критериям, причем желательно быстрого. Причем некоторые приложения также должны быть переделаны, чтобы формы просмотра логов стали использовать Hadoop вместо своих баз данных.

Как одно из решений — использовать поисковый модуль SolrCloud, который входит в комплект Hadoop от Cloudera. В Cloudera «из коробки» входят тулзы для выгрузки данных из баз данных приложений и их индексации пачкой (не построчно). Однако такой способ оказался хоть и рабочим, но более трудоемким и непредсказуемым в настройке, чем, скажем, если бы мы использовали Impala для выборки данных. Поэтому я решил поделиться как мы это делали, в надежде сэкономить время тем, кто столкнется с похожей задачей.

Эта статья описывает детали настройки, а также встреченные в процессе работы особенности.

Читать дальше →

+3

NNikolay 18 июл 2014 в 07:51

Lean Big Data на 6 сервисах Google

5 мин

20K

Big Data*Визуализация данных*Hadoop*

Здравствуй Хабр! Хочу рассказать как мы делали свою собственную Big Data.

Каждый стартап хочет собрать что-то дешевое, качественное и гибкое. Обычно так не бывает, но у нас, похоже, получилось! Ниже идёт описание нашего решения и много моего сугубо субъективного мнения по этому поводу.

И да, секрет в том, что используется 6 сервисов гугла и собственного кода почти не писалось.

Читать дальше →

+23

2ANikulin 23 мая 2014 в 06:43

Hive vs Pig. На что мне столько ETL?

8 мин

19K

Data Mining*Big Data*Hadoop*

Туториал

Лучше день потерять, но потом за пять минут долететь (с)

Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.

Читать дальше →

+19

MistiC 16 мая 2014 в 15:50

Hadoop и автоматизация: Часть 3

4 мин

5.4K

Блог компании EPAMHadoop*

Ну что ж, Хабражители, пришло время подытожить цикл статей (часть 1 и часть 2), посвященных моему приключению с автоматизацией развертывания Hadoop кластера.

Мой проект практически готов, осталось только оттестировать процесс и можно делать себе насечку на фюзеляже.
В этой статье я расскажу про поднятие «движущей силы» нашего кластера — Slaves, а также подведу итоги и предоставлю полезные ссылки на ресурсы, которыми я пользовался на протяжении своего проекта. Возможно, кому-то статьи показались скудными на исходный код и детали реализации, поэтому в конце статьи я предоставлю ссылку на Github

Читать дальше →

+5

MistiC 14 мая 2014 в 18:18

Hadoop и автоматизация: Часть 2

6 мин

10K

Блог компании EPAMHadoop*

Привет, Хабрапосетители!

Продолжаю свою «развеселую» серию статей, посвященных знакомству с Hadoop и автоматизации развертывания кластера.

В первой части я вкратце описал, что нужно было достичь, какую архитектуру кластера построить и что представляет собой Hadoop-кластер с точки зрения архитектуры. Также, я рассмотрел, наверное, самую простую часть кластера — Clients, которая отвечает за постановку задач, предоставление данных для вычислений и получение результатов.

Читать дальше →

+11

MistiC 12 мая 2014 в 19:23

Hadoop и автоматизация: Часть 1

5 мин

13K

Блог компании EPAMHadoop*

Привет, коллеги!

Последние пару недель я трудился над интереснейшим (с моей точки зрения) занятием, которое представляло собой создание Hadoop-as-a-Service решения для приватного облака нашей компании. В первую очередь мне было интересно, что же за зверь Hadoop, почему так часто сейчас слышны сочетания слов Big Data и Hadoop. Для меня знакомство с Hadoop началось с чистого листа. Конечно же, я не являлся и не явлюясь Big Data специалистом, посему вдавался в суть на столько, на сколько необходимо было для понимания процессов в разрезе автоматизации развертывания кластера.

Читать дальше →

+6

Mirantis_OpenStack 21 апр 2014 в 10:25

Повышение скорости обработки данных с помощью локальности данных в Hadoop

4 мин

5.2K

Блог компании Mirantis/OpenStackOpen source*Hadoop*

Автор: Андрей Лазарев

Одним из главных узких мест в вычислениях, требующих обработки больших объемов данных, является сетевой трафик, проходящий через коммутатор. К счастью, выполнение map-кода на том узле, где находятся данные, делает данную проблему намного менее серьезной. Такой метод, именуемый «локальностью данных», – одно из главных преимуществ модели Hadoop Map/Reduce.

Читать дальше →

+4

Mirantis_OpenStack 3 апр 2014 в 16:40

PaaS-стратегия OpenStack

8 мин

6.2K

Блог компании Mirantis/OpenStackOpen source*Hadoop*

Автор: Алекс Фридлaнд

От переводчика: в данной статье рассматриваются два противоположных взгляда на вопрос, угрожает ли развитие OpenStack индустрии PaaS или нет.

Читать дальше →

+4

AlexSerbul 2 апр 2014 в 17:55

Как обрабатывать терабайты данных в 1000 потоков на PHP — Hadoop/MapReduce

6 мин

35K

Блог компании Битрикс24Веб-разработка*Hadoop*

Всем привет!

Уже слышали про Bigdata? Ну да, веб растет, данных становится больше и их нужно держать под контролем и периодически анализировать. Базы данных — лопаются под нагрузкой, реляционная теория не совсем справляется с задачей, нужно решение. Маркетинг активно давит сверху, а железо острыми углами — снизу и попахивает суицидом.

В этом посте постараюсь дать конкретные работающие рецепты и куски кода с краткими теоретическими выводами, как же обрабатывать >=терабайты в >=1000 потоков на PHP. Чтобы можно было взять и решить задачу, не теряя времени и не забивая голову теорией.

Однако, если вдруг стало подташнивать и закружилась голова, можно дальше не читать — а полюбоваться на прекрасных птичек и забыть о вышенаписанном. Но будьте на чеку, Bigdata может завтра взять и постучаться в дверь ;-)

Читать дальше →

+13

KRED 1 апр 2014 в 14:05

Небольшой тест производительности Hadoop/Mapreduce

2 мин

4.4K

Java*Big Data*Hadoop*

Давным давно задался себе вопросом «На сколько эфективно работает MapReduce ?»

Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:
— 3 ноды: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
— 1 нода: Intel Xeon CPU X5450 @ 3.00GHz. 8GB RAM

Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE).

Исходные данные:
— ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
— в распакованом состоянии файл занимает 18ГБ места.
— 31М записей о страничках в вики.
— Bzip2 сжимает этот файл в 2ГБ
— 593.045.627 строк в файле

Читать дальше →

-5

fortyseven 11 мар 2014 в 11:41

Hadoop, часть 3: Pig, обработка данных

8 мин

26K

Блог компании SelectelBig Data*Hadoop*

Туториал

des-48-5

В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное.

Для обработки данных в Hadoop используется технология MapReduce.

Читать дальше →

+26

XaocCPS 4 мар 2014 в 14:38

Дайджест новостей платформы Windows Azure, февраль 2014

12 мин

4K

Блог компании MicrosoftMicrosoft Azure*Hadoop*

В рамках этого дайджеста новостей облачной платформы Windows Azure собраны основные анонсы для разработчиков, ИТ-профессионалов и для всех специалистов интересующихся облачными технологиями и платформой Windows Azure.

В этом выпуске:

Запущены новые региональные дата-центры Windows Azure.
Представлен новый сервис ExpressRoute – частные сети от ЦОД к Windows Azure.
Снижение цен на сервис рассылки пуш-уведомлений Notification Hubs.
Представлены цены и сроки доступности инструментов Oracle в Windows Azure
Web Sites. Поддержка бэкапа и восстановления сайтов
Mobile Services. Поддержка серверного кода на .NET. Интеграция с Notification Hubs. Поддержка PhoneGap. Client SDK.
HDInsight (Hadoop). Поддержка Hadoop 2.2
Java-разработка. Обновление инструментов разработчика
Управление и мониторинг. Уведомления о сбоях платформы на портале. Увеличение лимита на количество соадминистраторов. Новые командлеты PowerShell.
Виртуальные машины. Поддержка VM Agent и сервиса фоновой информации.
Active Directory. Еще больше SaaS-сервисов в каталоге. Отчетность. Управление группами.
BizTalk Services. Поддержка протокола EDIFACT. Интеграция с шиной Service Bus. Бэкап и восстановление.
Дополнительно. Бесплатные книги. Летняя школа Microsoft Research. Windows Azure – миллионам болельщиков.

Читать дальше →

+6

Mirantis_OpenStack 25 фев 2014 в 14:08

Интервью с Сергеем Лукьяновым, техническим лидером проекта OpenStack Savanna

7 мин

3.6K

Блог компании Mirantis/OpenStackOpen source*Hadoop*

Перевод

Беседовал Рафаэль Кнут (Rafael Knuth)

Представляем вам 10-е интервью из серии бесед с техническими руководителями проектов инициативы OpenStack в блоге Mirantis. Наша цель – обучение как можно большего числа членов технического сообщества и содействие понимаю того, каким образом можно внести вклад в OpenStack и как извлечь выгоду из него. Разумеется, ниже изложена точка зрения интервьюируемого, а не компании Mirantis.

Читать дальше →

+5

Mirantis_OpenStack 19 фев 2014 в 15:03

OpenStack нужна не одна «шляпа»

6 мин

7K

Блог компании Mirantis/OpenStackOpen source*Hadoop*

Автор: Ник Чейс

Похоже, становится модным ругать OpenStack. Это естественно, каждая технология испытывает болезнь роста, когда она уже достаточно продвинутая, чтобы люди захотели ее использовать, но не настолько продвинутая, чтобы оправдать 100% ожиданий всех и каждого.

Читать дальше →

+5

martsen 16 дек 2013 в 13:50

Настройка маленького кластера Hadoop 2.2.0 с нуля

7 мин

61K

Высокая производительность*Big Data*Hadoop*

Туториал

Из песочницы

В данной статье будет по шагам разобран процесс создания небольшого кластера Hadoop для опытов.

Несмотря на то, что в интернете на иностранных ресурсах есть полно материала про настройку/развертывание Hadoop, большинство из них либо описывают настройку ранних версий (0.X.X и 1.X.X), либо описывают только настройку в режиме single mode/pseudo distributed mode и лишь частично fully distributed mode. На русском языке материала практически нет вовсе.

Когда мне самому понадобился Hadoop, то я далеко не с первого раза смог все настроить. Материал был неактуален, часто попадались конфиги, которые используют deprecated параметры, поэтому использовать их нежелательно. А даже когда все настроил, то задавался многими вопросами, на которые искал ответы. Также встречались похожие вопросы у других людей.

Всем кому интересно, прошу пожаловать по кат.

Подробности

+19

ibm 9 дек 2013 в 11:52

IBM PureData для Hadoop: чем эта система может мне помочь?

2 мин

6.1K

Блог компании IBMВысокая производительность*Big Data*Hadoop*

Сегодня в компаниях информация выстраивается и хранится, как правило, несколькими способами и на нескольких платформах. Данные существуют в неструктурированном, неоптимизированном виде, что не позволяет извлекать из них информацию, необходимую для принятия стратегически важных решений. Роль Больших данных в этом сценарии заключается в возможности собирать такую информацию из различных входных данных, структурировать ее и выдавать данные для использования при анализе, при принятии решений и при работе со средствами предиктивной аналитики. Новейшая из систем IBM PureSystems объединяет в себе концепцию «Больших данных» и решение Apache Hadoop, исходя именно из таких задач.

Читать дальше →

+15

1 2 ...

9