Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

16 марта состоится крупнейший в EMEA вебинар от Cloudera

Блог компании Cloudera Облачные вычисления *Big Data *Хранилища данных *Data Engineering *


Уже в ближайший вторник, 16 марта, в 15:00 МСК состоится крупнейшее в EMEA онлайн-событие Cloudera Now 21: Data That Moves You… Fast. Secure. Hybrid. Now.

В рамках этого вебинара технические эксперты Клаудеры покажут, как построить современную гибридную платформу больших данных, реализуя потенциал Cloudera Data Platform (CDP).
Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 327
Комментарии 0

Пилотный Cloudera митап про новую платформу CDP пройдет 25.03 в 16:00

Блог компании Cloudera Big Data *Хранение данных *Hadoop *Data Engineering *


В рамках пилотного митапа мы расскажем о прогрессе адаптации клиентами новой платформы Cloudera Data Platform (CDP), которая объединила в себе лучшее из двух миров Hortonworks & Cloudera, обсудим дальнейшую судьбу дистрибутива CDP, архитектуру частного облака и последние новинки в мире больших данных и планы на развитие и усовершенствование нашей платформы.

Также в конце встречи выберем наиболее интересные темы для следующих митапов и ответим на вопросы!

Кому будет полезен митап

Всем пользователям и разработчикам, работающим на дистрибутивах HDP/CDH/CDP, которые хотят узнать больше о новой платформе и планах на развитие дистрибутива.

Зарегистрироваться на митап
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 166
Комментарии 0

Cloudera митап про интерактивные SQL запросы к потоковым данным пройдет 27.04 в 16:00 МСК

Блог компании Cloudera Big Data *Хранение данных *Hadoop *Data Engineering *


Cloudera Streaming Analytics предлагает SQL Stream Builder как сервис для создания непрерывных запросов к вашему потоку данных, используя SQL.

Конструктор SQL Stream Builder (SSB) — это комплексный интерфейс для создания заданий по обработке потоковых данных с контролем состояния данных с помощью SQL. Используя SQL, вы можете легко и просто создавать запросы, которые фильтруют, агрегируют, маршрутизируют и иным образом модифицируют потоки данных. SSB представляет собой интерфейс управления заданиями для компоновки и выполнения непрерывного SQL на потоках, а также для создания надежных API-интерфейсов для получения результатов.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 281
Комментарии 0

Стать компанией, управляемой данными, вместе с CDP Private Cloud на Red Hat Openshift

Блог компании Cloudera Big Data *Хранилища данных *Hadoop *Kubernetes *

Пора стать компанией, управляемой данными!

Нужна гибкость для переноса данных на любую платформу, включая гибридные среды, без привязки к поставщику?

CDP Private Cloud на OpenShift обеспечивает единообразие взаимодействия между специалистами по обработке данных и разработчиками в современной среде, которая защитит ваши инвестиции в будущем.

Присоединяйтесь к Cloudera и Red Hat на совместном вебинаре 9 сентября в 11:00.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 129
Комментарии 0

На дизайне от Google построили открытый сервер БД

Разработка веб-сайтов *Hadoop *
Маленькая поисковая фирма Zvents выпустила под свободной лицензией уникальную разработку — систему управления базами данных, которая легко распараллеливается на сотни машин. В роли серверов может использоваться стандартное дешёвое железо, оно в случае необходимости заменяется «на лету» без потери данных. Новая программа Hypertable теоретически рассчитана работать на кластере из 1000 узлов, хотя текущая альфа-версия 0.9 испытывалась только на десяти. Но тесты прошло отлично, а интерес к разработке уже проявила компания Yahoo. Дело в том, что в настоящее время в Hypertable используется файловая система Hadoop, ведущий разработчик которой работает как раз в Yahoo.

Руководители компании Zvents говорят, что они были вынуждены открыть свою программу в виде open source, потому что у них маленькая софтверная фирма и совершенно нет денег на инфраструктуру. Подобные СУБД коммерческого масштаба нужно испытывать на громадных кластерах.

Программа Hypertable создана по образцу известной базы данных Bigtable, которая используется в Google. Эта распределённая система, когда она была представлена на суд научной общественности в 2006 году, произвела настоящий фурор как одно из лучших изобретений в компьютерной области. Правда, там в качестве файловой системы используется запатентованная Google File System.
Читать дальше →
Всего голосов 46: ↑44 и ↓2 +42
Просмотры 2.8K
Комментарии 24

Hadoop Distributed File System

Высокая производительность *Hadoop *
Современные тенденции в развитии web-приложений и экспоненциальный рост информации, ими обрабатываемых, привел к потребности в появлении файловых систем ориентированных на обеспечение высокой производительности, масштабируемости, надежности и доступности. В стороне от данной проблемы не могли остаться такие гиганты поисковой индустрии, как Google и Yahoo.

Специфика приложений и вычислительной инфраструктуры Google, построенной на огромном количестве недорогих серверов, с присущими им постоянными отказами, привело к разработке собственной закрытой распределенной файловой системы Google File System (GFS). Данная система нацелена на автоматическое восстановление после сбоев, высокую отказоустойчивость, высокую пропускную способность при доступе к данным в потоковом режиме. Система предназначена для работы с большими объемами данных, подразумевающих большие размеры хранимых файлов, поэтому GFS оптимизирована для соответствующих операций. В частности, в целях упрощения реализации и повышения эффективности GFS не реализует стандартный POSIX-интерфейс.

Ответом GFS стал open source проект Hadoop, с его Hadoop Distributed File System.
Читать дальше →
Всего голосов 51: ↑48 и ↓3 +45
Просмотры 37K
Комментарии 41

Amazon открывает новый сервис в облаках «Elastic MapReduce»

Хостинг Hadoop *
В дополнение к сервисам Amazon Elastic Compute Cloud (EC2) и Amazon Simple Storage Service (Amazon S3) компания Amazon сообщила об открытии нового сервиса Amazon Elastic MapReduce, который на данный момент пребывает в статусе беты.

Elastic MapReduce — вебсервис, который позволят с легкостью обрабатывать огромные количества разнообразных данных. Сервис основан на совместном использовании EC2 и S3, а также фреймворка Hadoop.

Подробности под катом
Всего голосов 27: ↑27 и ↓0 +27
Просмотры 4K
Комментарии 13

Google издевается над веб-сервисами Microsoft

Высокая производительность *Hadoop *
Инженер из компании Google весьма критически отозвался о технологиях Microsoft в области распределённой вычислительной инфраструктуры для веб-приложений.

Маленький скандальчик случился на конференции Structure 09, которая посвящена облачным вычислениям. Всё началось с выступления Наджама Ахмада (Najam Ahmad), главного менеджера по глобальным сетевым сервисам Microsoft. Он подробно рассказал, как Microsoft пытается увеличить производительность множества своих сервисов. Мол, проблема в огромном их количестве, так что невозможно подобрать настройки так, чтобы все эти сервисы одинаково эффективно работали на одной платформе. Приходится фрагментировать инфраструктуру, ставить разные серверы с разными настройками для отдельных приложений, таких как Messenger или Virtual Earth, и оптимизировать их по отдельности. Он подробно рассказал, как тщательно они сейчас оптимизируют Virtual Earth.

Сразу после этого слово взял Виджай Гилл (Vijay Gill), старший инженер по архитектуре из Google, и, как говорится, пропесочил конкурента по полной программе.
Читать дальше →
Всего голосов 155: ↑146 и ↓9 +137
Просмотры 3.8K
Комментарии 182

Hadoop: решение реальных задач

Чулан
Привет вам, дорогие хабралюди (и просто люди, ибо различий я делать не стремлюсь). Возникла у меня тут мысль написать большую статью про Hadoop. Причем не просто статью, а статью, которая будет описывать реальную (ну или практически реальную) задачу, которая вполне может оказаться нужной и интересной уважаемым хабрапользователям — если быть точнее, статистический анализ очень большого объема данных, например, английской Википедии (дамп весит 24 Гб или около того).

Тут сразу несколько проблем. Во-первых, дамп Википедии — это XML. Работать с XML на Hadoop — это то еще удовольствие, однако если разобраться, то все не так плохо. Во-вторых, это еще не большой, но уже существенный объем данных — надо начинать думать о размере сплита, количестве map-тасков, и т.д. Третья проблема — скорее всего, я буду описывать разработку системы для «облачного» кластера, который где-то находится, но ни настраивать, ни администрировать ничего не надо — к сожалению, не у всех есть доступ к таким системам, поэтому неплохо было бы написать для начала как можно сконфигурировать простенький, но настоящий кластер.

Есть такой интерес у пользователей? Тема интересная, и я искренне верю, что в задачах, где требуется обработка очень больших объемов информации, грид-вычисления это вообще чуть ли не единственный разумный выход сразу по нескольким причинам. В свой блог я периодически кидаю всяческие гиковские наблюдения и мысли на тему Hadoop, но писать в личный блог и писать в Хабр — это, согласитесь, две большие разницы.

Ну так вот. Если интересно — отпишитесь, и я постепенно начну.

Update: в качестве задачи предлагается вычисление tf-idf — по-моему вполне нормальный пример (к тому же имеющий массу практических применений).

Update2: а статья уже готова :-) завтра отчитаю ее еще разок и выложу.

Update3: sigizmund.habrahabr.ru/blog/74792
Всего голосов 22: ↑19 и ↓3 +16
Просмотры 3K
Комментарии 10

Map/Reduce: решение реальных задач — TF-IDF

Алгоритмы *Hadoop *
Вчера я задал вопрос в своем ХабраБлоге — интересно ли людям узнать, что такое Hadoop с точки зрения его реального применения? Оказалось, интересно. Дело недолгое — статью я написал довольно быстро (по крайней мере, ее первую часть) — как минимум, потому, что уже давно знал, о чем собираюсь написать (потому как еще неплохо помню как я сам тыкался в поиске информации, когда начинал пользоваться Hadoop). В первой статье речь пойдет об основах — но совсем не о тех, про которые обычно рассказывают :-)

Перед прочтением статьи я настоятельно рекомендую изучить как минимум первый и последний источники из списка для чтения — их понимание или хотя бы прочтение практически гарантирует, что статья будет понята без проблем. Ну что, поехали?

Что такое Hadoop?




Ну скажите, какой смысл об этом писать? Уже не раз это проговаривалось, неоднократно начинали писаться посты на тему Hadoop, HDFS и прочая. К сожалению, обычно все заканчивалось на довольно пространном введении и фразе “Продолжение следует”. Так вот: это — продолжение. Кому-то тема, затрагиваемая в этой статье может показаться совершенно тривиальной и неинтересной, однако же лиха беда начало — любые сложные задачи надо решать по частям. Это утверждение, в частности, мы и реализуем в ходе статьи. Сразу замечу, что я постараюсь избежать написания кода в рамках этой конкретной статьи — это может подождать, а понять принципы построения программ, работающих с Map/Reduce можно и “на кошках” (к тому же с текущей частотой кардинального изменения API Hadoop любой код становится obsolete примерно через месяц).

Когда я начинал разбираться с Хадупом, очень большой сложностью лично для меня стало первоначальное понимание идеологии Map/Reduce (я предпочитаю писать это словосочетание именно так, чтобы подчеркнуть, что речь идет не о продукте, а о принципе). Суть и ценность метода станет понятна в самом конце — после того, как мы решим несложную задачу.
Читать дальше →
Всего голосов 46: ↑38 и ↓8 +30
Просмотры 19K
Комментарии 18

Map/Reduce: решение реальных задач — TF-IDF — 2

Алгоритмы *Hadoop *
Продолжая статью “Использование Hadoop для решения реальных задач”, хочу напомнить, что в прошлой статье мы остановились на том, что посчитали такую характеристику как tf(t,d), и сказали, что в следующем посте мы будем считать idf(t) и завершим процесс вычисления значения TF-IDF для данного документа и термина. Поэтому предлагаю долго не откладывать и переходить к этой задаче.

Важно заметить, что idf(t) не зависит от документа, потому как считается на всем корпусе. Это нетрудно увидеть, посмотрев на формулу:



Вероятно, она нуждается в некоторых пояснениях. Итак, |D| это мощность корпуса документов — иными словами, просто количество документов. Мы знаем его, поэтому считать ничего не надо. Знаменатель же логарифма — это количество таких документов d которые содержат интересующий нас токен t_i.

Читать дальше →
Всего голосов 44: ↑38 и ↓6 +32
Просмотры 13K
Комментарии 13

Отладка Hadoop приложений

Высокая производительность *Hadoop *
Сколько бы ни говорили, что логи способны полностью заменить отладку, увы и ах — это не совсем так, а иногда — совсем не так. Действительно, иногда и в голову не придет, что надо было писать в лог именно эту переменную — в то же время, в режиме отладки можно часто просмотреть сразу несколько структур данных; можно, в конце концов, наткнутся на проблемный участок абсолютно случайно. Поэтому иногда отладка неизбежна, и часто она способна сэкономить очень немало времени.

Отлаживать однопоточное Java приложение просто. Отлаживать многопоточное Java приложение — чуть сложнее, но все равно просто. Отлаживать мультипроцессное Java приложение? С процессами, запущенными на разных машинах? Это определенно сложнее. Именно поэтому все руководства по Hadoop рекомендуют обращаться к отладке только и исключительно тогда, когда другие опции (читай: логгинг) исчерпаны и не помогли. Ситуация зачастую усложняется тем, что на больших кластерах у вас может и не быть доступа к конкретным map/reduce узлам (именно с этим вариантом я и столкнулся). Но давайте решать проблему по частям. Итак…

Сценарий первый: локальный Hadoop


Самый простой вариант из всех возможных. Локальная инсталляция Hadoop — все выполняется на одной машине, и более того — в одном процессе, но в разных потоках. Отладка эквивалентна отладке обычного мультипоточного Java приложения — что может быть тривиальнее?

Как же этого добиться? Мы идем в директорию, где у нас развернут наш локальных Hadoop (я полагаю, что вы умеете это делать или умеете прочитать соответствующую инструкцию и уже теперь с этим справитесь).

    $ cd ~/dev/hadoop
    $ cp bin/hadoop bin/hdebug
    $ vim bin/hdebug

Наша задача — добавить еще одну опцию JVM, где-то в районе 282-283 строки (в зависимости от версии, номер может и измениться), сразу после того, как скрипт закончил формировать $HADOOP_OPTS:
Читать дальше →
Всего голосов 29: ↑25 и ↓4 +21
Просмотры 4.4K
Комментарии 3

Приглашение к тестированию реализации распределенной файловой системы на базе Hadoop

Чулан
Распределенная файловя система. (прототип)

Система первичное функциональное испытание. На винде и юниксе удалось воспользоваться основными функциями.

Есть ряд issues но они вполне могут быть устранены в рабочем порядке.

Теперь нужно провести более обьемное испытание, что тяжело сделать силами 1-2 человек.

Читать дальше →
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 465
Комментарии 9

Бэкенд Twitter перешёл на Protocol Buffers

Социальные сети и сообщества
Хотя основные копии пользовательских твитов хранятся в базах данных MySQL и Cassandra, компания также разворачивает дополнительное хранилище на Hadoop, которое можно будет использовать для аналитики и дополнительных программных приложений.

Информацию из этой системы можно запрашивать с помощью Java MapReduce или Pig, собственного SQL-подобного языка запросов Hadoop. В данный момент на этот бэкенд уже переведена система поиска, а в будущем появятся и другие приложения.

Отвергнув популярные технологии вроде XML, CSV и JSON, программисты Twitter выбрали в качестве формата для хранения данных бэкенда относительно неизвестный формат Protocol Buffers, разработанный в Google (он уже обсуждался на Хабре). Технические подробности реализации были оглашены представителями Twitter на конференции HadoopWorld во вторник.
Читать дальше →
Всего голосов 47: ↑43 и ↓4 +39
Просмотры 2.3K
Комментарии 43

Запуск и работа с Hadoop в Windows Azure

Блог компании Microsoft Hadoop *
Перевод

imageimage 



Возможно ли развернуть кластер Hadoop в Windows Azure? Конечно же, да, и как вы сможете убедиться, это совсем нетрудно.



В этой статье я продемонстрирую порядок того, как создать типовой кластер с серверами Name Node, Job Tracker и управляемым числом Slave-серверов. Вы сможете динамически изменять число Slave-серверов с помощью портала Azure Management Portal. Описание механики этого управления я оставлю на следующий пост.



Следуйте следующим шагам для того, чтобы создать пакет Azure для вашего кластера Hadoop с нуля:



Читать дальше →
Всего голосов 30: ↑22 и ↓8 +14
Просмотры 5.1K
Комментарии 3

Spark: дата-майнинг до 30x быстрее Hadoop

Data Mining *Hadoop *
В Калифорнийском университете в Беркли разработали фреймворк Spark для распределённых вычислений в кластерах. На некоторых задачах он превосходит Hadoop в 10-30 раз, сохраняя при этом масштабируемость и надёжность MapReduce.

Увеличение производительности до 30х возможно на специфических задачах, в которых идёт постоянное обращение к одному и тому же набору данных. Например, это интерактивный дата-майнинг и итерационные алгоритмы, которые активно используются, например, в системах машинного обучения. Собственно, для этих двух задач проект и создавался. Но Spark превосходит Hadoop не только в системах машинного обучения, но и в традиционных приложениях по обработке данных.
Читать дальше →
Всего голосов 29: ↑26 и ↓3 +23
Просмотры 9.7K
Комментарии 7

АНБ представило СУБД в инкубатор Apache

NoSQL *Hadoop *
Агентство национальной безопасности США предоставило на рассмотрение фонда Apache Software Foundation свой проект Accumulo. Это распределённая СУБД, созданная на основе дизайна Google BigTable с использованием кода Hadoop, Zookeeper и Thrift. Дизайн BigTable обнародован в 2006 году, работа над Accumulo началась в 2008-м, причём он изначально задумывался как свободный проект с использованием открытых библиотек.

Главным улучшением Accumulo по сравнению с BigTable является продвинутая система разграничения прав доступа на уровне отдельных ячеек (cell-level access labels). Различные пользователи могут получать доступ только к определённым полям базы данных, которым присвоен соответствующий уровень доступа (labels).
Читать дальше →
Всего голосов 46: ↑41 и ↓5 +36
Просмотры 2.1K
Комментарии 12

Microsoft поддерживает Hadoop

Высокая производительность *Hadoop *
Компания Microsoft приняла решение поддержать пользователей, которые хотят делать кластеры Hadoop на Windows Server и Windows Azure. В рамках стратегического сотрудничества с Hortonworks будет разработан стек для Hadoop. Microsoft обещает публиковать код под открытой лицензией, делая коммиты в проект Apache по окончании разработки.

Вдобавок, Microsoft создаст «простые версии, которые можно скачать, инсталлировать и настроить» различных технологий, связанных с Hadoop, в том числе HDFS, Hive и Pig. Это должно стимулировать использование Hadoop корпоративными заказчиками.
Читать дальше →
Всего голосов 14: ↑10 и ↓4 +6
Просмотры 960
Комментарии 2

GeekCast #2

Чулан
image
Темы:
Google Dart Вейдер?;
Чините деплой, а не симптомы;
Тула недели: Apache CLI;
Hadoop будет в Azure;
Hyper-V, Citrix Xen, KVM, OpenVZ, личный опыт.

Ведущие:
Юрий Трухин (@trukhinyuri/attrukhinyuri),
Михаил Филиппов (@filippovma),
Сергей Гаврук (@gavruk);

Всего голосов 20: ↑12 и ↓8 +4
Просмотры 273
Комментарии 4

Общедоступный индекс веба (5 миллиардов веб-страниц)

Поисковые технологии *Hadoop *
Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Если вы видели в логах веб-сервера CCBot/1.0, то это их краулер. Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.
Читать дальше →
Всего голосов 68: ↑63 и ↓5 +58
Просмотры 2.5K
Комментарии 39