Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Стать компанией, управляемой данными, вместе с CDP Private Cloud на Red Hat Openshift

Блог компании Cloudera Big Data *Хранилища данных *Hadoop *Kubernetes *

Пора стать компанией, управляемой данными!

Нужна гибкость для переноса данных на любую платформу, включая гибридные среды, без привязки к поставщику?

CDP Private Cloud на OpenShift обеспечивает единообразие взаимодействия между специалистами по обработке данных и разработчиками в современной среде, которая защитит ваши инвестиции в будущем.

Присоединяйтесь к Cloudera и Red Hat на совместном вебинаре 9 сентября в 11:00.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 144
Комментарии 0

Стоит ли платить за Apache Hadoop?

Java *Data Mining *Big Data *


В 2010 году Apache Hadoop, MapReduce и ассоциированные с ними технологии привели к распространению нового явления в сфере информационных технологий, названного «большими данными» или «Big Data». Понимание того, что из себя представляет платформа Apache Hadoop, зачем она нужна и для чего её можно использовать потихоньку проникает в умы специалистов по всему миру. Зарожденный, как идея одного человека, и быстро выросший до промышленных масштабов, Apache Hadoop стал одной из самых широко обсуждаемых платформ для распределенных вычислений, а также платформой для хранения неструктурированной или слабо структурированной информации. В этой статье я хотел бы подробнее остановиться на самой платформе Apache Hadoop и рассмотреть коммерческие реализации, предоставляемые сторонними компаниями, и их отличия от свободно распространяемой версии Apache Hadoop.
Читать дальше →
Всего голосов 26: ↑25 и ↓1 +24
Просмотры 30K
Комментарии 14

Hadoop, часть 1: развертывание кластера

Блог компании Selectel Big Data *Hadoop *
hadoop

Непрерывный рост данных и увеличение скорости их генерации порождают проблему их обработки и хранения. Неудивительно, что тема «больших данных» (Big Data) является одной из самых обсуждаемых в современном ИТ-сообществе.

Материалов по теории «больших данных» в специализированных журналах и на сайтах сегодня публикуется довольно много. Но из теоретических публикаций далеко не всегда ясно, как можно использовать соответствующие технологии для решения конкретных практических задач.

Одним из самых известных и обсуждаемых проектов в области распределенных вычислений является Hadoop — разрабатываемый фондом Apache Software Foundation свободно распространяемый набор из утилит, библиотек и фреймворк для разработки и выполнения программ распределенных вычислений.

Мы уже давно используем Hadoop для решения собственных практических задач. Результаты нашей работы в этой области стоят того, чтобы рассказать о них широкой публике. Эта статья — первая в цикле о Hadoop. Сегодня мы расскажем об истории и структуре проекта Hadoop, а также покажем на примере дистрибутива Hadoop Cloudera, как осуществляется развертывание и настройка кластера.

Осторожно, под катом много трафика.
Читать дальше →
Всего голосов 42: ↑40 и ↓2 +38
Просмотры 50K
Комментарии 16

Как проиндексировать логи бизнес-приложений в Hadoop (SolrCloud)

Блог компании CUSTIS Open source *Big Data *Hadoop *
Recovery mode

Введение


У одного из наших клиентов возникла задача вынести логи из большинства корпоративных приложений и их баз данных «куда-нибудь» — уж больно с ними много возни: растут как на дрожжах, чисти их периодически, а к некоторым еще и доступ должен быть обеспечен в течение многих лет, да еще и анализ хочется проводить системным образом. Конечно же, вынести логи – это не первичная цель, и по совокупности требований мы выбрали Hadoop, версию от Cloudera (CDH 5).

Требования указывали, что решение, помимо прочего, должно предоставлять возможность поиска и просмотра списка событий (из логов) по заданным критериям, причем желательно быстрого. Причем некоторые приложения также должны быть переделаны, чтобы формы просмотра логов стали использовать Hadoop вместо своих баз данных.

Как одно из решений — использовать поисковый модуль SolrCloud, который входит в комплект Hadoop от Cloudera. В Cloudera «из коробки» входят тулзы для выгрузки данных из баз данных приложений и их индексации пачкой (не построчно). Однако такой способ оказался хоть и рабочим, но более трудоемким и непредсказуемым в настройке, чем, скажем, если бы мы использовали Impala для выборки данных. Поэтому я решил поделиться как мы это делали, в надежде сэкономить время тем, кто столкнется с похожей задачей.

Эта статья описывает детали настройки, а также встреченные в процессе работы особенности.
Читать дальше →
Всего голосов 9: ↑6 и ↓3 +3
Просмотры 6.3K
Комментарии 20

Горячие анонсы облака Microsoft Azure: больше, быстрее и более открыто

Блог компании Microsoft Microsoft Azure
20 октября Сатья Наделла, CEO Microsoft и Скотт Гатри, CVP Microsoft в рамках мероприятия CloudDay рассказали о стратегии облачных вычислений компании и сделали ряд важных анонсов касающихся технологий и партнерства облачной платформы Microsoft Azure (вы можете посмотреть запись этого мероприятия по ссылке).

image image

image image

Среди анонсированных новостей были следующие:

  • Новые виртуальные машины серии G – крупнейшие на рынке публичных облачных сервисов
  • Новое хранилище Premium Storage – высокопроизводительное хранилище с низкими задержками
  • Новый сервис Azure Marketplace для поиска и размещения решений от стартапов, партнеров и корпоративных клиентов
  • Новые классные партнеры в лице CoreOS и Cloudera
  • Запуск нового гибридного решения Microsoft Cloud Platform System – “облако в коробке” для вашего ЦОД

Кроме того, в ходе выступлений были раскрыты некоторые данные о облаке Microsoft.  21 октября прошла онлайн-конференция AzureConf 2014, в рамках которой было сделано несколько интересных анонсов о технологиях Azure.

Обо всех новинках и анонсах более подробно рассказано ниже.
Читать дальше →
Всего голосов 45: ↑33 и ↓12 +21
Просмотры 12K
Комментарии 32

Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop

Блог компании TINKOFF SQL *Big Data *Hadoop *
В этой статье я хочу рассказать про следующий этап развития DWH в Тинькофф Банке и о переходе от парадигмы классического DWH к парадигме Data Lake.

Свой рассказ я хочу начать с такой вот веселой картинки:



Да, ещё несколько лет назад картинка была актуальной. Но сейчас, с развитием технологий, входящих в эко-систему Hadoop и развитием ETL платформ правомерно утверждать то, что ETL на Hadoop не просто существует но и то, что ETL на Hadoop ждет большое будущее. Далее в статье расскажу про то, как мы строим ETL на Hadoop в Тинькофф Банке.
Читать дальше →
Всего голосов 19: ↑17 и ↓2 +15
Просмотры 73K
Комментарии 39

DMP часть 1. Микросегментирование аудитории с помощью ключевых слов

Блог компании Targetix Высокая производительность *Разработка веб-сайтов *Big Data *
Авторы статьи: Данила Перепечин DanilaPerepechin, Дмитрий Чеклов dcheklov.

Здравствуйте.
Data management platform (DMP) — это наша любимая тема во всей истории про онлайн рекламу. RTB is all about the data.
В продолжение цикла рассказов о технологическом стеке Targetix (SSP, DSP), сегодня я опишу один из инструментов, входящих
в DMP — Keyword Builder.


Читать дальше →
Всего голосов 12: ↑10 и ↓2 +8
Просмотры 15K
Комментарии 20

Big Data — первый опыт ED IB

Блог компании AT Consulting Big Data *Hadoop *
Всем привет! Сегодня мы хотим рассказать про наше знакомство с Big Data, которое началось в 2012 году, когда рынок ещё не накрыла волна популярности темы больших данных.



К тому времени у нас уже накопилась экспертиза в области построения хранилищ данных. Мы рассматривали различные пути улучшения стандартных архитектур ХД, поскольку заказчик хотел обрабатывать большие объёмы данных за короткое время и при ограниченном бюджете. Мы понимали, что большие объёмы данных для стандартного хранилища прекрасно обрабатываются на MPP-платформах, но де-факто это дорого. Значит, нам нужна недорогая распределенная система. Ей оказался Hadoop. Он нуждается в минимальных начальных вложениях, а первые результаты можно получить очень быстро. В дальнейшей перспективе – горизонтальное, практически линейное масштабирование, открытая платформа и много интересных дополнительных функций: например, NoSQL, быстрый поиск по данным, подобие SQL-языка доступа к данным.
Читать дальше →
Всего голосов 29: ↑19 и ↓10 +9
Просмотры 18K
Комментарии 18

Kudu – новый движок хранения данных в экосистеме Hadoop

Big Data *Hadoop *
image
Kudu был одной из новинок, представленых компанией Cloudera на конференции “Strata + Hadoop World 2015”. Это новый движок хранения больших данных, созданный чтобы покрыть нишу между двумя уже существующими движками: распределенной файловой системой HDFS и колоночной базой данных Hbase.

Существующие на данный момент движки не лишены недостатков. HDFS, прекрасно справляющаяся с операциями сканирования больших объемов данных, показывает плохие результаты на операциях поиска. C Hbase все с точностью до наоборот. К тому же HDFS обладает дополнительным ограничением, а именно, не позволяет модифицировать уже записанные данные. Новый движок, согласно разработчикам, обладает преимуществами обеих существующих систем:
— операции поиска с быстрым откликом
— возможность модификации
— высокая производительность при сканировании больших объемов данных
Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 11K
Комментарии 3

Укрощаем слона или что такое HUE

Java *Big Data *
Из песочницы
Пост будет о том, как сделать работу на Хадупе немного комфортнее.



В данной статье я хочу рассмотреть один из компонентов экосистемы Hadoop – HUE. Произносим правильно «Хьюи» или «Эйч Ю И», но не другими, созвучными с широко известным русским словом, вариантами.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 21K
Комментарии 3

Обзор кейсов интересных внедрений Big Data в компаниях финансового сектора

Big Data *Управление проектами *Hadoop *
Из песочницы

Кейсы практического применения Больших данных
в компаниях финансового сектора


Зачем эта статья?

В данном обзоре рассматриваются случаи внедрения и применения Больших данных в реальной жизни на примере «живых» проектов. По некоторым, особенно интересным, во всех смыслах, кейсам осмелюсь дать свои комментарии.

Диапазон рассмотренных кейсов ограничивается примерами, представленными в открытом доступе на сайте компании Cloudera.

Что такое «Большие данные»


Есть в технических кругах шутка, что «Большие данные» это данные, для обработки которых недостаточно Excel 2010 на мощном ноутбуке. То есть если для решения задачи вам надо оперировать 1 миллионом строк на листе и более или 16 тысяч столбцов и более, то поздравляем, ваша данные относятся к разряду «Больших».

Среди множества более строгих определений приведем, например следующее: «Большие данные» — наборы данных, которые настолько объемны и сложны, что использование традиционных средств обработки невозможно. Термин обычно характеризует данные, над которыми применяются методы предиктивной аналитики или иные методы извлечения ценности из данных и редко соотносится только с объемом данных.
Читать дальше →
Всего голосов 25: ↑21 и ↓4 +17
Просмотры 17K
Комментарии 5

Распределенное хранилище данных в концепции Data Lake: с чего начать

Блог компании Neoflex Big Data *Хранилища данных *Hadoop *
В мире энтерпрайза наступило пресыщение фронтовыми системами, шинами данных и прочими классическими системами, которые внедряли все кому не лень последние 10-15 лет. Но есть один сегмент, который до недавнего времени был в статусе «все хотят, но никто не знает, что это». И это Big Data. Красиво звучит, продвигается топовыми западными компаниями – как не стать лакомым кусочком?



Но пока большинство только смотрит и приценивается, некоторые компании начали активно внедрять решения на базе этого технологического стека в свой IT ландшафт. Важную роль в этом сыграло появление коммерческих дистрибутивов Apache Hadoop, разработчики которых обеспечивают своим клиентам техническую поддержку. Ощутив необходимость в подобном решении, один из наших клиентов принял решение об организации распределенного хранилища данных в концепции Data Lake на базе Apache Hadoop.
Читать дальше →
Всего голосов 11: ↑10 и ↓1 +9
Просмотры 7K
Комментарии 2

Распределенное хранилище данных в концепции Data Lake: установка CDH

Блог компании Neoflex Big Data *Хранилища данных *Hadoop *

Продолжаем делиться опытом по организации хранилища данных, о котором начали рассказывать в предыдущем посте. На этот раз хотим поговорить о том, как мы решали задачи по установке CDH.



Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 4.3K
Комментарии 11

Что особенного в Cloudera и как ее готовить

Блог компании Atos Big Data *Хранение данных *Хранилища данных *Hadoop *
Рынок распределенных вычислений и больших данных, если верить статистике, растет на 18-19% в год. Значит, вопрос выбора софта для этих целей остается актуальным. В этом посте мы начнем с того, зачем нужны распределенные вычисления, подробней остановимся на выборе ПО, расскажем о применении Hadoop с помощью Cloudera, а напоследок поговорим о выборе железа и о том, как оно разными способами влияет на производительность.

Читать дальше →
Всего голосов 18: ↑15 и ↓3 +12
Просмотры 6.7K
Комментарии 3

Impala vs Hive vs Spark SQL: Выбор правильного SQL движка для правильной работы в Cloudera Data Warehouse

SQL *Apache *Big Data *Hadoop *Data Engineering *
Перевод


Нам всегда не хватает данных. И мы не просто хотим больше данных… мы хотим новые типы данных, которые позволят нам лучше понимать свою продукцию, клиентов и рынки. Мы все-время находимся в поиске новых данных, данных всех форм и размеров, структурированных и не очень. Мы хотим распахнуть свои двери для нового поколения бизнес-специалистов и технических специалистов, которые будут увлеченно вместе с нами открывать новые базы данных и технологии, которые впоследствии изменят характер того, как мы взаимодействуем с данными и какое влияние они оказывают на нашу жизнь.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 6.3K
Комментарии 3

Apache Bigtop и выбор Hadoop-дистрибутива сегодня

Блог компании Ростелеком Java *Apache *Хранение данных *Hadoop *


Наверное, ни для кого не секрет, что прошлый год для Apache Hadoop стал годом больших перемен. В прошлом году произошло слияние Cloudera и Hortonworks (по сути, поглощение второго), а Mapr, в виду серьезных финансовых проблем, был продан Hewlett Packard. И если несколькими годами ранее, в случае on-premises инсталляций, выбор чаще приходилось делать между Cloudera и Hortonworks, то сегодня, увы, этого выбора у нас не осталось. Сюрпризом стал еще и тот факт, что Cloudera с февраля этого года объявила о прекращении выпуска бинарных сборок своего дистрибутива в публичный репозиторий, и теперь они доступны лишь по платной подписке. Конечно, возможность загрузки последних версий CDH и HDP, выпущенных до конца 2019-го года, все еще есть, и поддержка по ним предполагается в течение одного-двух лет. Но что же делать дальше? Для тех, кто ранее платил за подписку, ничего не изменилось. А для тех, кто не хочет переходить на платную версию дистрибутива, но при этом хочет иметь возможность получать свежие версии компонентов кластера, а также патчи и прочие обновления, мы и подготовили эту статью. В ней мы рассмотрим возможные варианты выхода из сложившейся ситуации.

Статья больше обзорная. В ней не будет сравнения дистрибутивов и подробного их разбора, а также не будет рецептов по их установке и настройке. А что же будет? Мы вкратце расскажем про такой дистрибутив как Arenadata Hadoop, который по праву заслужил наше внимание ввиду своей доступности, что на сегодня большая редкость. А затем поговорим про Vanilla Hadoop, в основном про то, как его можно “приготовить” с помощью Apache Bigtop. Готовы? Тогда добро пожаловать под кат.
Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 4.7K
Комментарии 3

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

Блог компании Cloudera Apache *Big Data *Хранение данных *Hadoop *
Recovery mode

Привет, Хабр! Меня зовут Кирилл, я инженер по решениям в Cloudera, и сегодня мне выпала честь представлять всю команду, работающую с регионом СНГ. Мы очень рады, что наконец-то можем делиться полезными материалами и новинками мира больших данных с вами. В последнее время у нас появилось много нового, поэтому начиная писать эту статью волновались, как бы она не превратилась в неподъемный лонгрид. Постарались собрать ниже только самое основное и, к сожалению, в этой статье не будет много технической информации, но мы быстро это исправим.

Узнать о новинках
Всего голосов 7: ↑3 и ↓4 -1
Просмотры 4.1K
Комментарии 24

Настройка DBT + Spark для кластера Cloudera on-prem

Блог компании Neoflex SQL *Hadoop *


Для управления кодом Spark-приложений мы используем подход, описанный в предыдущей статье.

Речь идет об управлении качеством кода при разработке Spark ETL, чтобы не превратить работу над проектом в полет души, пугающий даже автора. В результате Spark ETL application выглядит просто как последовательность Spark SQL-запросов. Сама ETL-трансформация описывается как объект в отдельном файле конфигурации.
Читать дальше →
Всего голосов 2: ↑2 и ↓0 +2
Просмотры 583
Комментарии 0

Data governance: добавление сторонних метаданных в Apache Atlas

Блог компании Cloudera Data Mining *Big Data *Хранение данных *Data Engineering *
Перевод

Управление и устойчивая обработка данных являются важнейшим фактором успеха практически во всех организациях. В то время как платформа Cloudera Data Platform (CDP) уже поддерживает весь жизненный цикл данных от 'Edge до AI', мы в Cloudera полностью осознаем, что предприятия имеют больше систем за пределами CDP. Очень важно избегать того, чтобы CDP становилась ещё одной обособленной платформой в вашем ИТ-ландшафте. Чтобы исправить это, она может быть полностью интегрирована в существующую корпоративную ИТ-среду, какой бы разнообразной она ни была, и даже помогать отслеживать и классифицировать широкий спектр существующих активов данных, чтобы обеспечить полную картину от начала и до конца. В этом блоге мы выделим ключевые аспекты CDP, которые обеспечивают управление данными и покажем, как их можно расширить, чтобы включить в них метаданные для не связанных с CDP систем со всего предприятия.

Читать далее
Рейтинг 0
Просмотры 1.1K
Комментарии 0

Как построить современное аналитическое хранилище данных на базе Cloudera Hadoop

Блог компании GlowByte Big Data *Хранилища данных *Hadoop *

Привет.

В конце прошлого года GlowByte и Газпромбанк сделали большой совместный доклад на конференции Big Data Days, посвященный созданию современного аналитического хранилища данных на базе экосистемы Cloudera Hadoop. В статье мы детальнее расскажем об опыте построения системы, о сложностях и вызовах с которыми пришлось столкнуться и преодолеть и о тех успехах и результатах, которых мы достигли.

Строить хранилище!
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 4.1K
Комментарии 6
1