Обновить
2

Hadoop *

Фреймворк для распределённых приложений

Сначала показывать
Порог рейтинга
Уровень сложности

Опции хранения и обработки данных в облаке Microsoft Azure

Время на прочтение7 мин
Количество просмотров11K

Мне очень приятно сегодня рассказать вам о возможностях хранения данных в облаке Azure. Мы знаем, что данные — это самое главное, что есть у нас, данные — это то, для чего создается инфраструктура и вообще существует ИТ. Поэтому, вопрос хранения данных — наиболее важный.



Microsoft Azure. Как мы храним свои и ваши данные


Для начала давайте посмотрим, как Microsoft хранит данные для собственных сервисов и данные своих пользователей и какие опции компания использует сама и предлагает клиентам.



image



Нам очень важно обеспечить все потребности наших клиентов и поэтому мы постоянно расширяем свои ЦОДы, увеличиваем их мощности и создаем новые. Сегодня мы предлагаем 16 самых современных и очень больших ЦОД по всему миру, обеспечивая работу сотен своих сервисов и сервисов тысяч наших клиентов, которыми пользуются сотни миллионов людей по всему миру. Благодаря этому сервисы Azure доступны на 89 рынках с круглосуточной и ежедневной поддержкой.


Читать дальше →

Видео и обзор конференции OSSDEVCONF-2014

Время на прочтение6 мин
Количество просмотров3.8K
Пару недель назад в Калуге прошла конференция OSSDEVCONF-2014, или более солидно «Одиннадцатая конференция разработчиков свободных программ». Тематика в целом — «как внедрять СПО», «перспективы импортозамещения», «СПО во всех видах — от госпорталов до CAD-систем и Instant Messengerов», тонкости разработки сложного опенсорса, фишки отечественных линукс-дистрибутивов. Докладчики — ALT Linux, Red Hat, ROSA, Институт Системного программирования и т.п. К сожалению, получилось так, что народу собралось немного — осенние болезни скосили участников и докладчиков (один из в полуживом состоянии осилил записать удаленный доклад…), ну и трудно, несмотря на бесплатность, собрать людей на конференцию не в городе-транспортном узле. В результате, всего полтора десятка докладов, и они ищут зрителей — я сделал добротную видеозапись (монтаж с нескольких камер и экрана, звук с микрофонов, технологии оживления и т.п.)

В качестве пикрелейтед — минутный обзорный ролик.



А под катом предлагаю краткий обзор-классификацию с ссылками на видео и дополнительные материалы («слайды-тезисы-контакты докладчика»).
Читать дальше →

Hadoop. Подробное руководство. 3-е издание

Время на прочтение1 мин
Количество просмотров12K
Возможно Вы помните пост по этой книге
image

Прототип: Hadoop: The Definitive Guide
Publisher: O'Reilly Media; Third Edition edition (May 26, 2012)

Мы снизили цену на бумажную версию до 450 руб, PDF и EPUB — 199 руб
Читать дальше →

Приглашаем на HadoopKitchen

Время на прочтение4 мин
Количество просмотров7.2K


Спешим сообщить вам о нашей новой инициативе, которая будет интересна как программистам, так и ряду других IT-специалистов: 27 сентября, в следующую субботу, в московском офисе Mail.Ru Group состоится первая встреча HadoopKitchen. Почему именно Hadoop и чем эта встреча может быть интересна непрограммистам?

  • Hadoop является центром настоящей экосистемы, с ним связаны многочисленные проекты и технологии.
  • Многие компании целиком полагаются на коммерческие дистрибутивы Hadoop.
  • Hadoop входит в продуктовые линейки почти всех крупных поставщиков информационных технологий, что говорит о его востребованности и популярности.

Программа первой Hadoop-встречи будет очень насыщенной, выступят аж четыре докладчика. Все они замечательные специалисты с большим опытом, которым хотят поделиться с аудиторией. Под катом читайте программу мероприятия и анонсы докладов.
Читать дальше →

Oracle vs Teradata vs Hadoop

Время на прочтение4 мин
Количество просмотров24K
Эта статья нацелена на Большие и Очень большие Хранилища Данных, но для ровной картины в классификации немного упомянуты и маленькие.

Статья написана для специалистов, которые ценят главный критерий работы с базами данными — скорость. Речь пойдет о системах, нацеленных на грубый full scan (ораклисты уже напряглись, а терадатовцы радуются).

Давайте рассмотрим, под какой объем данных и работ лучше всего подходит Oracle или Hadoop/NoSQL.
Читать дальше →

Поговорим за Hadoop

Время на прочтение10 мин
Количество просмотров64K
image

Введение

Как человеку с не очень устойчивой психикой, мне достаточно одного взгляда на картинку, подобную этой, для начала панической атаки. Но я решил, что страдать буду только сам. Цель статьи — сделать так, чтобы Hadoop выглядел не таким страшным.

Что будет в этой статье:

  • Разберем, из чего состоит фреймворк и зачем он нужен;
  • разберем вопрос безболезненного развертывания кластера;
  • посмотрим на конкретный пример;
  • немного коснемся новых фич Hadoop 2 (Namenode Federation, Map/Reduce v2).


Чего не будет в этой статье:

  • вообще статья обзорная, поэтому без сложностей;
  • не будем лезть в тонкости экосистемы;
  • не будем зарываться глубоко в дебри API;
  • не будем рассматривать все околоdevops-задачи.

Читать дальше →

В чем польза ZooKeeper для админов и разработчиков. Семинар в Яндексе

Время на прочтение7 мин
Количество просмотров95K

Привет! Меня зовут Андрей Степачев. В конце прошлого года я выступил перед коллегами с небольшим рассказом о том, что такое ZooKeeper, и как его можно использовать. Доклад изначально был рассчитан на широкий круг аудитории и может быть полезен и разработчикам, и админам, желающим разобраться, как все это примерно работает.





Начнем, пожалуй, с истории появления ZooKeeper. Сначала, как известно, в Google написали сервис Chubby для управления своими серверами и их конфигурацией. Заодно решили задачу с распределенными блокировками. Но у Chubby была одна особенность: для захвата локов необходимо открывать объект, потом закрывать. От этого страдала производительность. В Yahoo посчитали, что им нужен инструмент, при помощи которого они могли бы строить различные системы для конфигураций своих кластеров. Именно в этом основная цель ZooKeeper — хранение и управление конфигурациями определенных систем, а локи получились как побочный продукт. В итоге вся эта система была создана для построения различных примитивных синхронизаций клиентским кодом. В самом ZooKeeper явных понятий подобных очередям нет, все это реализуется на стороне клиентских библиотек.


Стоит отметить, что протокол, используемый Zookeeper называется ZAB, ссылки на описания протокола приведены в конце статьи.



Читать дальше →

Как проиндексировать логи бизнес-приложений в Hadoop (SolrCloud)

Время на прочтение12 мин
Количество просмотров7.2K

Введение


У одного из наших клиентов возникла задача вынести логи из большинства корпоративных приложений и их баз данных «куда-нибудь» — уж больно с ними много возни: растут как на дрожжах, чисти их периодически, а к некоторым еще и доступ должен быть обеспечен в течение многих лет, да еще и анализ хочется проводить системным образом. Конечно же, вынести логи – это не первичная цель, и по совокупности требований мы выбрали Hadoop, версию от Cloudera (CDH 5).

Требования указывали, что решение, помимо прочего, должно предоставлять возможность поиска и просмотра списка событий (из логов) по заданным критериям, причем желательно быстрого. Причем некоторые приложения также должны быть переделаны, чтобы формы просмотра логов стали использовать Hadoop вместо своих баз данных.

Как одно из решений — использовать поисковый модуль SolrCloud, который входит в комплект Hadoop от Cloudera. В Cloudera «из коробки» входят тулзы для выгрузки данных из баз данных приложений и их индексации пачкой (не построчно). Однако такой способ оказался хоть и рабочим, но более трудоемким и непредсказуемым в настройке, чем, скажем, если бы мы использовали Impala для выборки данных. Поэтому я решил поделиться как мы это делали, в надежде сэкономить время тем, кто столкнется с похожей задачей.

Эта статья описывает детали настройки, а также встреченные в процессе работы особенности.
Читать дальше →

Lean Big Data на 6 сервисах Google

Время на прочтение5 мин
Количество просмотров20K
image

Здравствуй Хабр! Хочу рассказать как мы делали свою собственную Big Data.

Каждый стартап хочет собрать что-то дешевое, качественное и гибкое. Обычно так не бывает, но у нас, похоже, получилось! Ниже идёт описание нашего решения и много моего сугубо субъективного мнения по этому поводу.

И да, секрет в том, что используется 6 сервисов гугла и собственного кода почти не писалось.
Читать дальше →

Hive vs Pig. На что мне столько ETL?

Время на прочтение8 мин
Количество просмотров20K
image

Лучше день потерять, но потом за пять минут долететь (с)



Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.
Читать дальше →

Hadoop и автоматизация: Часть 3

Время на прочтение4 мин
Количество просмотров5.6K
Ну что ж, Хабражители, пришло время подытожить цикл статей (часть 1 и часть 2), посвященных моему приключению с автоматизацией развертывания Hadoop кластера.

Мой проект практически готов, осталось только оттестировать процесс и можно делать себе насечку на фюзеляже.
В этой статье я расскажу про поднятие «движущей силы» нашего кластера — Slaves, а также подведу итоги и предоставлю полезные ссылки на ресурсы, которыми я пользовался на протяжении своего проекта. Возможно, кому-то статьи показались скудными на исходный код и детали реализации, поэтому в конце статьи я предоставлю ссылку на Github
Читать дальше →

Hadoop и автоматизация: Часть 2

Время на прочтение6 мин
Количество просмотров11K
Привет, Хабрапосетители!


Продолжаю свою «развеселую» серию статей, посвященных знакомству с Hadoop и автоматизации развертывания кластера.

В первой части я вкратце описал, что нужно было достичь, какую архитектуру кластера построить и что представляет собой Hadoop-кластер с точки зрения архитектуры. Также, я рассмотрел, наверное, самую простую часть кластера — Clients, которая отвечает за постановку задач, предоставление данных для вычислений и получение результатов.
Читать дальше →

Hadoop и автоматизация: Часть 1

Время на прочтение5 мин
Количество просмотров13K
Привет, коллеги!

Последние пару недель я трудился над интереснейшим (с моей точки зрения) занятием, которое представляло собой создание Hadoop-as-a-Service решения для приватного облака нашей компании. В первую очередь мне было интересно, что же за зверь Hadoop, почему так часто сейчас слышны сочетания слов Big Data и Hadoop. Для меня знакомство с Hadoop началось с чистого листа. Конечно же, я не являлся и не явлюясь Big Data специалистом, посему вдавался в суть на столько, на сколько необходимо было для понимания процессов в разрезе автоматизации развертывания кластера.
Читать дальше →

Ближайшие события

Повышение скорости обработки данных с помощью локальности данных в Hadoop

Время на прочтение4 мин
Количество просмотров5.3K
Автор: Андрей Лазарев

Одним из главных узких мест в вычислениях, требующих обработки больших объемов данных, является сетевой трафик, проходящий через коммутатор. К счастью, выполнение map-кода на том узле, где находятся данные, делает данную проблему намного менее серьезной. Такой метод, именуемый «локальностью данных», – одно из главных преимуществ модели Hadoop Map/Reduce.
Читать дальше →

PaaS-стратегия OpenStack

Время на прочтение8 мин
Количество просмотров6.3K
Автор: Алекс Фридлaнд

От переводчика: в данной статье рассматриваются два противоположных взгляда на вопрос, угрожает ли развитие OpenStack индустрии PaaS или нет.
Читать дальше →

Как обрабатывать терабайты данных в 1000 потоков на PHP — Hadoop/MapReduce

Время на прочтение6 мин
Количество просмотров36K
Всем привет!

Уже слышали про Bigdata? Ну да, веб растет, данных становится больше и их нужно держать под контролем и периодически анализировать. Базы данных — лопаются под нагрузкой, реляционная теория не совсем справляется с задачей, нужно решение. Маркетинг активно давит сверху, а железо острыми углами — снизу и попахивает суицидом.

В этом посте постараюсь дать конкретные работающие рецепты и куски кода с краткими теоретическими выводами, как же обрабатывать >=терабайты в >=1000 потоков на PHP. Чтобы можно было взять и решить задачу, не теряя времени и не забивая голову теорией.

Однако, если вдруг стало подташнивать и закружилась голова, можно дальше не читать — а полюбоваться на прекрасных птичек и забыть о вышенаписанном. Но будьте на чеку, Bigdata может завтра взять и постучаться в дверь ;-)

Читать дальше →

Небольшой тест производительности Hadoop/Mapreduce

Время на прочтение2 мин
Количество просмотров4.5K
Давным давно задался себе вопросом «На сколько эфективно работает MapReduce ?»

Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:
— 3 ноды: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
— 1 нода: Intel Xeon CPU X5450 @ 3.00GHz. 8GB RAM

Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE).

Исходные данные:
— ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
— в распакованом состоянии файл занимает 18ГБ места.
— 31М записей о страничках в вики.
— Bzip2 сжимает этот файл в 2ГБ
— 593.045.627 строк в файле
Читать дальше →

Hadoop, часть 3: Pig, обработка данных

Время на прочтение8 мин
Количество просмотров28K
des-48-5

В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное.

Для обработки данных в Hadoop используется технология MapReduce.
Читать дальше →

Дайджест новостей платформы Windows Azure, февраль 2014

Время на прочтение12 мин
Количество просмотров4.1K

image



В рамках этого дайджеста новостей облачной платформы Windows Azure собраны основные анонсы для разработчиков, ИТ-профессионалов и для всех специалистов интересующихся облачными технологиями и платформой Windows Azure.



В этом выпуске:


  • Запущены новые региональные дата-центры Windows Azure.
  • Представлен новый сервис ExpressRoute – частные сети от ЦОД к Windows Azure.
  • Снижение цен на сервис рассылки пуш-уведомлений Notification Hubs.
  • Представлены цены и сроки доступности инструментов Oracle в Windows Azure
  • Web Sites. Поддержка бэкапа и восстановления сайтов
  • Mobile Services. Поддержка серверного кода на .NET. Интеграция с Notification Hubs. Поддержка PhoneGap. Client SDK.
  • HDInsight (Hadoop). Поддержка Hadoop 2.2
  • Java-разработка. Обновление инструментов разработчика
  • Управление и мониторинг. Уведомления о сбоях платформы на портале. Увеличение лимита на количество соадминистраторов. Новые командлеты PowerShell.
  • Виртуальные машины. Поддержка VM Agent и сервиса фоновой информации.
  • Active Directory. Еще больше SaaS-сервисов в каталоге. Отчетность. Управление группами.
  • BizTalk Services. Поддержка протокола EDIFACT. Интеграция с шиной Service Bus. Бэкап и восстановление.
  • Дополнительно. Бесплатные книги. Летняя школа Microsoft Research. Windows Azure – миллионам болельщиков.
Читать дальше →

Интервью с Сергеем Лукьяновым, техническим лидером проекта OpenStack Savanna

Время на прочтение7 мин
Количество просмотров3.7K
Беседовал Рафаэль Кнут (Rafael Knuth)

Представляем вам 10-е интервью из серии бесед с техническими руководителями проектов инициативы OpenStack в блоге Mirantis. Наша цель – обучение как можно большего числа членов технического сообщества и содействие понимаю того, каким образом можно внести вклад в OpenStack и как извлечь выгоду из него. Разумеется, ниже изложена точка зрения интервьюируемого, а не компании Mirantis.
Читать дальше →