Как стать автором
Поиск
Написать публикацию
Обновить
0

Hadoop *

Фреймворк для распределённых приложений

Сначала показывать
Порог рейтинга
Уровень сложности

Дайджест новостей платформы Windows Azure, октябрь 2013

Время на прочтение8 мин
Количество просмотров2.3K

image



В рамках этого дайджеста новостей облачной платформы Windows Azure собраны основные анонсы для разработчиков, ИТ-профессионалов и для всех специалистов интересующихся облачными технологиями и платформой Windows Azure.



В этом выпуске:



  • Коммерческая доступность сервиса резервного копирования в облако Windows Azure Backup
  • Коммерческая доступность cервиса Windows Azure HDInsight (кластеры Hadoop как сервис)
  • Публичное превью нового сервиса Hyper-V Recovery Manager
  • Новые возможности работы с виртуальными машинами:
    • Удаление дисков;
    • Новые уведомления групп доступности;
    • Конфигурирование SQL Server AlwaysOn;
  • Новые функции Active Directory:
    • Интеграция и управление сотнями сторонних SaaS-приложений;
    • Управление Windows Azure;
  • Поддержка Windows Azure в SQL Server 2014 CTP2;
  • Поддержка Windows Server 2012
  • Windows Azure SDK 2.2
    • Поддержка Visual Studio 2013;
    • Удаленная отладка облачных сервисов;
    • Секционирование сущностей Windows Azure Service Bus;
    • Новые библиотеки управления Windows Azure Management Libraries for .NET;
    • Новые скрипты PowerShell и новый портал ScriptCenter;
  • Снижение цен на ВМ с большим объемом памяти
  • Опубликована предварительная программа конференции Cloud OS Summit
Читать дальше →

Windows Azure и Hadoop: «дружба», готовая к Enterprise

Время на прочтение3 мин
Количество просмотров4.9K
За последние пол месяца произошло 3 ИТ-события, лежащие в плоскости Big Data, Cloud Computing и на их симбиозе. По странному стечению обстоятельств эти события остались без должного внимания как со стороны хабросообщества, так и со стороны немногочисленных профессиональных сетевых сообществ в LinkedIn и Facebook.

События, о которых идет речь — конференция «Strata + Hadoop World», релиз стабильной версии Hadoop 2.2.0 и облачного сервиса Windows Azure HDInsight. О косвенной и прямой взаимосвязи этих событий речь и пойдет ниже.

Windows Azure HDInsight 2.1 Ecosystem
Подробности

Hadoop, часть 1: развертывание кластера

Время на прочтение11 мин
Количество просмотров59K
hadoop

Непрерывный рост данных и увеличение скорости их генерации порождают проблему их обработки и хранения. Неудивительно, что тема «больших данных» (Big Data) является одной из самых обсуждаемых в современном ИТ-сообществе.

Материалов по теории «больших данных» в специализированных журналах и на сайтах сегодня публикуется довольно много. Но из теоретических публикаций далеко не всегда ясно, как можно использовать соответствующие технологии для решения конкретных практических задач.

Одним из самых известных и обсуждаемых проектов в области распределенных вычислений является Hadoop — разрабатываемый фондом Apache Software Foundation свободно распространяемый набор из утилит, библиотек и фреймворк для разработки и выполнения программ распределенных вычислений.

Мы уже давно используем Hadoop для решения собственных практических задач. Результаты нашей работы в этой области стоят того, чтобы рассказать о них широкой публике. Эта статья — первая в цикле о Hadoop. Сегодня мы расскажем об истории и структуре проекта Hadoop, а также покажем на примере дистрибутива Hadoop Cloudera, как осуществляется развертывание и настройка кластера.

Осторожно, под катом много трафика.
Читать дальше →

HBase, загрузка больших массивов данных через bulk load

Время на прочтение4 мин
Количество просмотров11K
Привет коллеги.
Хочу поделиться своим опытом использования HBase, а именно рассказать про bulk loading. Это еще один метод загрузки данных. Он принципиально отличается от обычного подхода (записи в таблицу через клиента). Есть мнение, что с помощью bulk load можно очень быстро загружать огромные массивы данных. Именно в этом я решил разобраться.
Читать дальше →

Вам не нужен Hadoop — у вас просто нет столько данных

Время на прочтение4 мин
Количество просмотров79K
Меня спросили: «Сколько у вас опыта с большими данными и Hadoop?» Я ответил, что часто использую Hadoop, но редко — с объёмами данных больше нескольких ТБ. Я новичок в больших данных — понимаю идеи, писал код, но не в серьёзных масштабах.

Следующий вопрос был: «Можете ли вы сделать простую группировку и сумму в Hadoop?» Разумеется, могу, и я попросил пример формата данных.

Они вручили мне флэш-диск со всеми 600 МБ данных (да, это были именно все данные, а не выборка). Не понимаю, почему, но им не понравилось моё решение, в котором был pandas.read_csv и не было Hadoop.
Читать дальше →

Вы понимаете Hadoop неправильно

Время на прочтение5 мин
Количество просмотров41K

— Мы получаем больше миллиона твитов в день, и наш сервер просто не успевает их обрабатывать. Поэтому мы хотим установить на кластер Hadoop и распределить обработку.



Речь шла о вычислительно тяжёлом сентиментном анализе, поэтому я мог поверить, что у одного сервера действительно не хватает CPU, чтобы справиться с большим потоком твитов.



— А что вы собираетесь делать с уже обработанными данными?
— Скорее всего, мы будем складывать их в MySQL, как делали это раньше, или даже удалять.
— Тогда вам определённо не нужен Hadoop.



Мой бывший коллега был далеко не первым, кто говорил про распределённые вычисления на Hadoop. И каждый раз я видел полное непонимание того, зачем была придумана и разработана эта платформа.



Читать дальше →

Hadoop. Подробное руководство. 3-е издание

Время на прочтение2 мин
Количество просмотров23K
Возможно вы помните пост: Нужна ли книга по Hadoop?, в котором мы хотели узнать ваше мнение, стоит ли издавать эту книгу на русском языке. Прошли положенные 9 месяцев, и мы готовы представить её вашему вниманию.

Встречайте:

image
Читать дальше →

Microsoft Dryad vs Apache Hadoop. Неначатое сражение за Big Data

Время на прочтение12 мин
Количество просмотров11K
UPD: сменил заголовок статьи, т.к. прошлый заголовок я написал, пока был лунатиком (шутка, разумеется).

На прошлой неделе на Хабре появилось 2 поста о фреймворке распределенных вычислений от Microsoft Research – Dryad. В частности, подробно были описаны концепции и архитектура ключевых компонентов Dryad – среды исполнения Dryad и языка запросов DryadLINQ.


Логическим завершением цикла статей о Dryad видится сравнение фреймворка Dryad с другими, знакомыми разработчикам MPP-приложений, инструментами: реляционными СУБД (в т.ч. параллельными), GPU-вычислениями и платформой Hadoop.


RDBMS vs Hadoop vs Dryad

Читать дальше →

Обновление Windows Azure: Hadoop, Dropbox, Mercurial, PhoneGap

Время на прочтение4 мин
Количество просмотров6.1K
image

18 марта Скотт Гатри в своем блоге анонсировал очередные нововведения в облачную платформу Windows Azure. Представленный новый функционал включает в себя:



  • HTML5-клиенты (CORS) для Windows Azure Mobile Services, включая доступ из популярной библиотеки PhoneGap;
  • улучшенная поддержка Windows Phone 7.5, новые библиотеки и пакет Nuget;
  • поддержка размещения веб-сайтов из Mercurial (Bitbucket, Codeplex) и Dropbox;
  • новые шаблоны в Web Sites;
  • публичный доступ к сервису HDInsight – облачной платформе Hadoop как сервис.

Ниже о этих нововведениях чуть подробнее.



Поддержка HTML5/JS-клиентов и PhoneGap в Mobile Services


Windows Azure Mobile Services предлагает облачную инфраструктуру для всех популярных мобильных платформ: Windows 8, Windows Phone, iOS и Android. В текущем обновлении к поддержке мобильных платформ добавилась поддержка веб-клиентов на HTML5/JS, в частности популярной библиотеки PhoneGap. Теперь вы можете получить доступ ко всем данным сохраненным из мобильных клиентов через код написанный на HTML5/JS.


Читать дальше →

MapReduce для обработки слабоструктурированных данных в HDInsight

Время на прочтение8 мин
Количество просмотров5.3K
В данном примере мы разберем создание и выполнение типового задания MapReduce в облачной реализации Hadoop от Microsoft, которая носит название HDInsight.
В предыдущем примере мы создали 3-узловой кластер Hadoop и загрузили абстрактный журнал слабоструктурированного формата, который сейчас предстоит обработать. Журнал представляет собой в общем случае большой (в нашем конкретном примере маленький, но на принципиальную демонстрацию идеи это не влияет) текстовый файл, содержащий строки с признаками TRACE, DEBUG, INFO, WARN, ERROR, FATAL. Наша элементарная задача будет состоять в том, чтобы подсчитать количество строк с каждым признаком, т.е. сколько раз возникала ситуация WARN, сколько ERROR и т.д.
Читать дальше →

Дата-майнинг для информационной безопасности

Время на прочтение2 мин
Количество просмотров12K


На Хабре много писали о суперкомпьютере IBM Watson. Предполагается, что такая машина должна служить людям: помогать ставить диагнозы и решать другие сложные проблемы путём анализа массивов структурированных и неструктурированных данных. Но можно ли систему дата-майнинга приспособить для нужд информационной безопасности компании?
Читать дальше →

Microsoft HDInsight. «Облачное» (и не только) будущее Hadoop

Время на прочтение7 мин
Количество просмотров9.6K
Объем данных, генерируемый и собираемый современными научно-исследовательским центрами, финансовыми институтами, социальными сетями, уже привычно измеряется петабайтами. Так в дата-центрах Facebook хранится уже более 15 млрд. изображений, нью-йоркская фондовая биржа NYSE создает и реплицирует ежедневно около 1 Тб данных, Большой адронный коллайдер получает около 1 Пб данных в секунду.

Очевидно, что задачи обработки больших объемов данных все чаще становятся не только перед крупными компаниями, но перед стартапами и небольшими исследовательскими группами.

Платформа Hadoop, которая, в принципе, успешно решает проблему Big Data для полу- и неструктурированных данных, в своем «чистом» виде предъявляет значительные требования как к квалификации администраторов Hadoop-кластера, так и к первоначальным финансовым затратам на аппаратное обеспечение такого кластера.

В такой ситуации симбиоз облачных технологий и платформы Hadoop все чаще представляется как крайне перспективный способ решения проблемы «Больших данных», имеющий крайне невысокий уровень входа (квалификация + затраты на запуск).
Узнать будущее

Big Data – почему это так модно?

Время на прочтение5 мин
Количество просмотров11K
Технологии Big Data сегодня очень популярны, о чем говорит хотя бы то, что на текущий момент это наиболее часто встречающийся термин в IT-публикациях. Достаточно посмотреть на статистику таких известных поисковых систем, как Google или Yandex по словосочетанию «Big Data», и становится понятным, что так называемые «Большие Данные» действительно сейчас можно назвать одним из самых востребованных и интересных направлений развития информационных технологий.

Так в чем же секрет популярности этих технологий и что означает термин «Big Data»?
Читать дальше →

Ближайшие события

Нужна ли книга по Hadoop?

Время на прочтение2 мин
Количество просмотров17K
Хотел с Вами посоветоваться. Нужна ли книга по Hadoop?

На Амазоне эта книга привлекла мое внимание, но нет ясности: надо ли издавать её на русском языке?

image
Читать дальше →

Cистема рекомендаций в облаке с помощью Hadoop и Apache Mahout

Время на прочтение5 мин
Количество просмотров8K
image

Apache Mahout — это библиотека машинного обучения, созданная для использования в масштабируемых приложениях машинного обучения. Системы рекомендаций — это наиболее узнаваемые приложения машинного обучения, используемые в настоящее время. При выполнении заданий этого руководства мы будем использовать интернет-архив Million Song Dataset, чтобы создать рекомендации по выбору песен для пользователей с учетом их музыкальных предпочтений.



О чем пойдет речь в данном руководстве:



  • Как использовать систему рекомендаций

Данное руководство состоит из следующих разделов.


  1. Изучение и форматирование данных
  2. Выполнение задания Mahout
Читать дальше →

Команда Microsoft Research побила мировой рекорд по сортировке

Время на прочтение2 мин
Количество просмотров2K
На сайте sortbenchmark.org ежегодно проводятся конкурсы по сортировке больших наборов данных. Один из видов соревнований — minute sort, в котором необходимо за минуту прочитать с диска и сортировать как можно большее число записей и сохранить результат в файл. Конкурс проходит в двух категориях — Indy, без ограничений на используемое железо, и Daytona — должны использоваться только обычные компьютеры “из магазина”.

Команде Microsoft Research удалось многократно превысить державшийся с 2009 года рекорд Yahoo в категории Daytona. Их кластер, состоящий из 1033 дисков на 250 машинах, справился с 1401 гигабайтом данных. Это почти втрое лучше результата Yahoo (500 гигабайт), при том, что кластер Yahoo был почти в шесть раз больше (5624 диска на 1406 машинах). Более того, майкрософтовский кластер побил и прошлогодний рекорд в категории Indy (1353 гигабайта).
Читать дальше →

Hadoop достиг версии 1.0

Время на прочтение1 мин
Количество просмотров1.5K
Известная платформа для массово-параллельной обработки данных Apache Hadoop вышла в версии 1.0.0 (release notes). Для другого проекта выпуск первой версии мог бы считаться знаменательным событием и вехой в развитии, но здесь ситуация совсем другая. На самом деле Hadoop был готов к использованию в самых серьёзных коммерческих проектах ещё с версии 0.20. В связке с MapReduce он уже давно работает на Facebook, Yahoo, Twitter и др. В марте 2011 года Hadoop удостоен ежегодной награды MediaGuardian Innovation Awards как самая инновационная технология, а на церемонии вручения Hadoop назвали «швейцарским армейским ножом 21 века».

Впрочем, некоторые компании могут принципиально не использовать продукты версии ниже 1.0, так что для них этот релиз важен. Это некая гарантия стабильности со стороны разработчиков.
Читать дальше →

Yac 2011: Технический отчёт

Время на прочтение14 мин
Количество просмотров2.2K
Эх, раз, да ещё раз,
Да ещё yet another раз…


Не так давно завершилась конференция Яндекс YaC 2011 и теперь, когда стали доступны записи выступлений, я хочу представить вам технический отчёт о её посещении. В отчете я сосредоточился на той информации, которую вы можете получить, посмотрев запись того или иного доклада, и решить стоит ли тратить на это время. Для некоторых тем добавил дополнительные ссылки на ключевые ресурсы, а так же, по мотивам общения с авторами, описал устройства двух NoSQL технологий Яндекса: Elliptics Network и хранилища писем в Яндекс почте.

Итак, Yac 2011, как это было.
Читать дальше →

Общедоступный индекс веба (5 миллиардов веб-страниц)

Время на прочтение1 мин
Количество просмотров4.2K
Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Если вы видели в логах веб-сервера CCBot/1.0, то это их краулер. Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.
Читать дальше →

Microsoft поддерживает Hadoop

Время на прочтение1 мин
Количество просмотров1.2K
Компания Microsoft приняла решение поддержать пользователей, которые хотят делать кластеры Hadoop на Windows Server и Windows Azure. В рамках стратегического сотрудничества с Hortonworks будет разработан стек для Hadoop. Microsoft обещает публиковать код под открытой лицензией, делая коммиты в проект Apache по окончании разработки.

Вдобавок, Microsoft создаст «простые версии, которые можно скачать, инсталлировать и настроить» различных технологий, связанных с Hadoop, в том числе HDFS, Hive и Pig. Это должно стимулировать использование Hadoop корпоративными заказчиками.
Читать дальше →