Все потоки

Hadoop *

Фреймворк для распределённых приложений

СтатьиПостыНовостиАвторыКомпании

XaocCPS 13 окт 2014 в 10:14

Опции хранения и обработки данных в облаке Microsoft Azure

7 мин

11K

Блог компании MicrosoftHadoop * Microsoft Azure *

Мне очень приятно сегодня рассказать вам о возможностях хранения данных в облаке Azure. Мы знаем, что данные — это самое главное, что есть у нас, данные — это то, для чего создается инфраструктура и вообще существует ИТ. Поэтому, вопрос хранения данных — наиболее важный.

Microsoft Azure. Как мы храним свои и ваши данные

Для начала давайте посмотрим, как Microsoft хранит данные для собственных сервисов и данные своих пользователей и какие опции компания использует сама и предлагает клиентам.

Нам очень важно обеспечить все потребности наших клиентов и поэтому мы постоянно расширяем свои ЦОДы, увеличиваем их мощности и создаем новые. Сегодня мы предлагаем 16 самых современных и очень больших ЦОД по всему миру, обеспечивая работу сотен своих сервисов и сервисов тысяч наших клиентов, которыми пользуются сотни миллионов людей по всему миру. Благодаря этому сервисы Azure доступны на 89 рынках с круглосуточной и ежедневной поддержкой.

Читать дальше →

+11

belonesox 12 окт 2014 в 00:36

Видео и обзор конференции OSSDEVCONF-2014

6 мин

3.8K

Hadoop * Open source *

Пару недель назад в Калуге прошла конференция OSSDEVCONF-2014, или более солидно «Одиннадцатая конференция разработчиков свободных программ». Тематика в целом — «как внедрять СПО», «перспективы импортозамещения», «СПО во всех видах — от госпорталов до CAD-систем и Instant Messengerов», тонкости разработки сложного опенсорса, фишки отечественных линукс-дистрибутивов. Докладчики — ALT Linux, Red Hat, ROSA, Институт Системного программирования и т.п. К сожалению, получилось так, что народу собралось немного — осенние болезни скосили участников и докладчиков (один из в полуживом состоянии осилил записать удаленный доклад…), ну и трудно, несмотря на бесплатность, собрать людей на конференцию не в городе-транспортном узле. В результате, всего полтора десятка докладов, и они ищут зрителей — я сделал добротную видеозапись (монтаж с нескольких камер и экрана, звук с микрофонов, технологии оживления и т.п.)

В качестве пикрелейтед — минутный обзорный ролик.

А под катом предлагаю краткий обзор-классификацию с ссылками на видео и дополнительные материалы («слайды-тезисы-контакты докладчика»).

Читать дальше →

+10

ph_piter 30 сен 2014 в 12:50

Hadoop. Подробное руководство. 3-е издание

1 мин

12K

Блог компании Издательский дом «Питер»Профессиональная литература * NoSQL * Hadoop *

Возможно Вы помните пост по этой книге

Прототип: Hadoop: The Definitive Guide
Publisher: O'Reilly Media; Third Edition edition (May 26, 2012)

Мы снизили цену на бумажную версию до 450 руб, PDF и EPUB — 199 руб

Читать дальше →

+7

TeamMRG 18 сен 2014 в 09:43

Приглашаем на HadoopKitchen

4 мин

7.2K

Блог компании VKВысоконагруженные системы * Hadoop * Big Data *

Спешим сообщить вам о нашей новой инициативе, которая будет интересна как программистам, так и ряду других IT-специалистов: 27 сентября, в следующую субботу, в московском офисе Mail.Ru Group состоится первая встреча HadoopKitchen. Почему именно Hadoop и чем эта встреча может быть интересна непрограммистам?

Hadoop является центром настоящей экосистемы, с ним связаны многочисленные проекты и технологии.
Многие компании целиком полагаются на коммерческие дистрибутивы Hadoop.
Hadoop входит в продуктовые линейки почти всех крупных поставщиков информационных технологий, что говорит о его востребованности и популярности.

Программа первой Hadoop-встречи будет очень насыщенной, выступят аж четыре докладчика. Все они замечательные специалисты с большим опытом, которым хотят поделиться с аудиторией. Под катом читайте программу мероприятия и анонсы докладов.

Читать дальше →

+24

skullodrom 3 сен 2014 в 08:33

Oracle vs Teradata vs Hadoop

4 мин

24K

Big Data * Hadoop * Oracle *

Из песочницы

Эта статья нацелена на Большие и Очень большие Хранилища Данных, но для ровной картины в классификации немного упомянуты и маленькие.

Статья написана для специалистов, которые ценят главный критерий работы с базами данными — скорость. Речь пойдет о системах, нацеленных на грубый full scan (ораклисты уже напряглись, а терадатовцы радуются).

Давайте рассмотрим, под какой объем данных и работ лучше всего подходит Oracle или Hadoop/NoSQL.

Читать дальше →

+1

DataArt 29 авг 2014 в 16:20

Поговорим за Hadoop

10 мин

64K

Блог компании DataArtJava * Hadoop * Big Data *

Туториал

Введение

Как человеку с не очень устойчивой психикой, мне достаточно одного взгляда на картинку, подобную этой, для начала панической атаки. Но я решил, что страдать буду только сам. Цель статьи — сделать так, чтобы Hadoop выглядел не таким страшным.

Что будет в этой статье:

Разберем, из чего состоит фреймворк и зачем он нужен;
разберем вопрос безболезненного развертывания кластера;
посмотрим на конкретный пример;
немного коснемся новых фич Hadoop 2 (Namenode Federation, Map/Reduce v2).

Чего не будет в этой статье:

вообще статья обзорная, поэтому без сложностей;
не будем лезть в тонкости экосистемы;
не будем зарываться глубоко в дебри API;
не будем рассматривать все околоdevops-задачи.

Читать дальше →

+8

octo47 23 авг 2014 в 12:33

В чем польза ZooKeeper для админов и разработчиков. Семинар в Яндексе

7 мин

95K

Блог компании ЯндексHadoop * Программирование *

Привет! Меня зовут Андрей Степачев. В конце прошлого года я выступил перед коллегами с небольшим рассказом о том, что такое ZooKeeper, и как его можно использовать. Доклад изначально был рассчитан на широкий круг аудитории и может быть полезен и разработчикам, и админам, желающим разобраться, как все это примерно работает.

Начнем, пожалуй, с истории появления ZooKeeper. Сначала, как известно, в Google написали сервис Chubby для управления своими серверами и их конфигурацией. Заодно решили задачу с распределенными блокировками. Но у Chubby была одна особенность: для захвата локов необходимо открывать объект, потом закрывать. От этого страдала производительность. В Yahoo посчитали, что им нужен инструмент, при помощи которого они могли бы строить различные системы для конфигураций своих кластеров. Именно в этом основная цель ZooKeeper — хранение и управление конфигурациями определенных систем, а локи получились как побочный продукт. В итоге вся эта система была создана для построения различных примитивных синхронизаций клиентским кодом. В самом ZooKeeper явных понятий подобных очередям нет, все это реализуется на стороне клиентских библиотек.

Стоит отметить, что протокол, используемый Zookeeper называется ZAB, ссылки на описания протокола приведены в конце статьи.

Читать дальше →

+48

plinyar 20 авг 2014 в 16:16

Как проиндексировать логи бизнес-приложений в Hadoop (SolrCloud)

12 мин

7.2K

Блог компании CUSTISOpen source * Hadoop * Big Data *

Recovery Mode

Введение

У одного из наших клиентов возникла задача вынести логи из большинства корпоративных приложений и их баз данных «куда-нибудь» — уж больно с ними много возни: растут как на дрожжах, чисти их периодически, а к некоторым еще и доступ должен быть обеспечен в течение многих лет, да еще и анализ хочется проводить системным образом. Конечно же, вынести логи – это не первичная цель, и по совокупности требований мы выбрали Hadoop, версию от Cloudera (CDH 5).

Требования указывали, что решение, помимо прочего, должно предоставлять возможность поиска и просмотра списка событий (из логов) по заданным критериям, причем желательно быстрого. Причем некоторые приложения также должны быть переделаны, чтобы формы просмотра логов стали использовать Hadoop вместо своих баз данных.

Как одно из решений — использовать поисковый модуль SolrCloud, который входит в комплект Hadoop от Cloudera. В Cloudera «из коробки» входят тулзы для выгрузки данных из баз данных приложений и их индексации пачкой (не построчно). Однако такой способ оказался хоть и рабочим, но более трудоемким и непредсказуемым в настройке, чем, скажем, если бы мы использовали Impala для выборки данных. Поэтому я решил поделиться как мы это делали, в надежде сэкономить время тем, кто столкнется с похожей задачей.

Эта статья описывает детали настройки, а также встреченные в процессе работы особенности.

Читать дальше →

+3

NNikolay 18 июл 2014 в 03:51

Lean Big Data на 6 сервисах Google

5 мин

20K

Big Data * Hadoop * Визуализация данных *

Здравствуй Хабр! Хочу рассказать как мы делали свою собственную Big Data.

Каждый стартап хочет собрать что-то дешевое, качественное и гибкое. Обычно так не бывает, но у нас, похоже, получилось! Ниже идёт описание нашего решения и много моего сугубо субъективного мнения по этому поводу.

И да, секрет в том, что используется 6 сервисов гугла и собственного кода почти не писалось.

Читать дальше →

+22

2ANikulin 23 мая 2014 в 02:43

Hive vs Pig. На что мне столько ETL?

8 мин

20K

Hadoop * Data Mining * Big Data *

Туториал

Лучше день потерять, но потом за пять минут долететь (с)

Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.

Читать дальше →

+18

MistiC 16 мая 2014 в 11:50

Hadoop и автоматизация: Часть 3

4 мин

5.6K

Блог компании EPAMHadoop *

Ну что ж, Хабражители, пришло время подытожить цикл статей (часть 1 и часть 2), посвященных моему приключению с автоматизацией развертывания Hadoop кластера.

Мой проект практически готов, осталось только оттестировать процесс и можно делать себе насечку на фюзеляже.
В этой статье я расскажу про поднятие «движущей силы» нашего кластера — Slaves, а также подведу итоги и предоставлю полезные ссылки на ресурсы, которыми я пользовался на протяжении своего проекта. Возможно, кому-то статьи показались скудными на исходный код и детали реализации, поэтому в конце статьи я предоставлю ссылку на Github

Читать дальше →

+4

MistiC 14 мая 2014 в 14:18

Hadoop и автоматизация: Часть 2

6 мин

11K

Блог компании EPAMHadoop *

Привет, Хабрапосетители!

Продолжаю свою «развеселую» серию статей, посвященных знакомству с Hadoop и автоматизации развертывания кластера.

В первой части я вкратце описал, что нужно было достичь, какую архитектуру кластера построить и что представляет собой Hadoop-кластер с точки зрения архитектуры. Также, я рассмотрел, наверное, самую простую часть кластера — Clients, которая отвечает за постановку задач, предоставление данных для вычислений и получение результатов.

Читать дальше →

+10

MistiC 12 мая 2014 в 15:23

Hadoop и автоматизация: Часть 1

5 мин

13K

Блог компании EPAMHadoop *

Привет, коллеги!

Последние пару недель я трудился над интереснейшим (с моей точки зрения) занятием, которое представляло собой создание Hadoop-as-a-Service решения для приватного облака нашей компании. В первую очередь мне было интересно, что же за зверь Hadoop, почему так часто сейчас слышны сочетания слов Big Data и Hadoop. Для меня знакомство с Hadoop началось с чистого листа. Конечно же, я не являлся и не явлюясь Big Data специалистом, посему вдавался в суть на столько, на сколько необходимо было для понимания процессов в разрезе автоматизации развертывания кластера.

Читать дальше →

+5

Mirantis_OpenStack 21 апр 2014 в 06:25

Повышение скорости обработки данных с помощью локальности данных в Hadoop

4 мин

5.3K

Блог компании Mirantis/OpenStackHadoop * Open source *

Автор: Андрей Лазарев

Одним из главных узких мест в вычислениях, требующих обработки больших объемов данных, является сетевой трафик, проходящий через коммутатор. К счастью, выполнение map-кода на том узле, где находятся данные, делает данную проблему намного менее серьезной. Такой метод, именуемый «локальностью данных», – одно из главных преимуществ модели Hadoop Map/Reduce.

Читать дальше →

+3

Mirantis_OpenStack 3 апр 2014 в 12:40

PaaS-стратегия OpenStack

8 мин

6.3K

Блог компании Mirantis/OpenStackHadoop * Open source *

Автор: Алекс Фридлaнд

От переводчика: в данной статье рассматриваются два противоположных взгляда на вопрос, угрожает ли развитие OpenStack индустрии PaaS или нет.

Читать дальше →

+3

AlexSerbul 2 апр 2014 в 13:55

Как обрабатывать терабайты данных в 1000 потоков на PHP — Hadoop/MapReduce

6 мин

36K

Блог компании Битрикс24Hadoop * Веб-разработка *

Всем привет!

Уже слышали про Bigdata? Ну да, веб растет, данных становится больше и их нужно держать под контролем и периодически анализировать. Базы данных — лопаются под нагрузкой, реляционная теория не совсем справляется с задачей, нужно решение. Маркетинг активно давит сверху, а железо острыми углами — снизу и попахивает суицидом.

В этом посте постараюсь дать конкретные работающие рецепты и куски кода с краткими теоретическими выводами, как же обрабатывать >=терабайты в >=1000 потоков на PHP. Чтобы можно было взять и решить задачу, не теряя времени и не забивая голову теорией.

Однако, если вдруг стало подташнивать и закружилась голова, можно дальше не читать — а полюбоваться на прекрасных птичек и забыть о вышенаписанном. Но будьте на чеку, Bigdata может завтра взять и постучаться в дверь ;-)

Читать дальше →

+12

KRED 1 апр 2014 в 10:05

Небольшой тест производительности Hadoop/Mapreduce

2 мин

4.5K

Big Data * Hadoop * Java *

Давным давно задался себе вопросом «На сколько эфективно работает MapReduce ?»

Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:
— 3 ноды: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
— 1 нода: Intel Xeon CPU X5450 @ 3.00GHz. 8GB RAM

Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE).

Исходные данные:
— ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
— в распакованом состоянии файл занимает 18ГБ места.
— 31М записей о страничках в вики.
— Bzip2 сжимает этот файл в 2ГБ
— 593.045.627 строк в файле

Читать дальше →

-6

fortyseven 11 мар 2014 в 07:41

Hadoop, часть 3: Pig, обработка данных

8 мин

28K

Блог компании SelectelHadoop * Big Data *

Туториал

des-48-5

В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное.

Для обработки данных в Hadoop используется технология MapReduce.

Читать дальше →

+25

XaocCPS 4 мар 2014 в 10:38

Дайджест новостей платформы Windows Azure, февраль 2014

12 мин

4.1K

Блог компании MicrosoftMicrosoft Azure * Hadoop *

В рамках этого дайджеста новостей облачной платформы Windows Azure собраны основные анонсы для разработчиков, ИТ-профессионалов и для всех специалистов интересующихся облачными технологиями и платформой Windows Azure.

В этом выпуске:

Запущены новые региональные дата-центры Windows Azure.
Представлен новый сервис ExpressRoute – частные сети от ЦОД к Windows Azure.
Снижение цен на сервис рассылки пуш-уведомлений Notification Hubs.
Представлены цены и сроки доступности инструментов Oracle в Windows Azure
Web Sites. Поддержка бэкапа и восстановления сайтов
Mobile Services. Поддержка серверного кода на .NET. Интеграция с Notification Hubs. Поддержка PhoneGap. Client SDK.
HDInsight (Hadoop). Поддержка Hadoop 2.2
Java-разработка. Обновление инструментов разработчика
Управление и мониторинг. Уведомления о сбоях платформы на портале. Увеличение лимита на количество соадминистраторов. Новые командлеты PowerShell.
Виртуальные машины. Поддержка VM Agent и сервиса фоновой информации.
Active Directory. Еще больше SaaS-сервисов в каталоге. Отчетность. Управление группами.
BizTalk Services. Поддержка протокола EDIFACT. Интеграция с шиной Service Bus. Бэкап и восстановление.
Дополнительно. Бесплатные книги. Летняя школа Microsoft Research. Windows Azure – миллионам болельщиков.

Читать дальше →

+5

Mirantis_OpenStack 25 фев 2014 в 10:08

Интервью с Сергеем Лукьяновым, техническим лидером проекта OpenStack Savanna

7 мин

3.7K

Блог компании Mirantis/OpenStackHadoop * Open source *

Перевод

Беседовал Рафаэль Кнут (Rafael Knuth)

Представляем вам 10-е интервью из серии бесед с техническими руководителями проектов инициативы OpenStack в блоге Mirantis. Наша цель – обучение как можно большего числа членов технического сообщества и содействие понимаю того, каким образом можно внести вклад в OpenStack и как извлечь выгоду из него. Разумеется, ниже изложена точка зрения интервьюируемого, а не компании Mirantis.

Читать дальше →

+4

1 2 ...

10