Как стать автором

Hadoop *

Фреймворк для распределённых приложений

Статьи Посты Новости Авторы Компании

SAP 19 дек 2017 в 12:36

Big Data в Hadoop по подписке в облаке SAP

10 мин

3.8K

Блог компании SAPОблачные вычисления*Big Data*Хранение данных*Hadoop*

Сегодня мы расскажем об одном из сервисов SAP, который характеризует наш новый подход к созданию продуктов и работе с клиентами. Это решение SAP Cloud Platform Big Data Services, которое предлагает клиентам возможность работать с большими данными в Hadoop по модели подписки на облачное приложение.

В первой статье мы сделаем обзор того, как анализ Big Data может пригодиться бизнесу на практике, как отличаются облачного и on-premise размещения Hadoop, а про основные функции, сервисы и технологии в SAP Cloud Platform Big Data Services. В следующих статьях мы подробнее разберём технологические особенности и отдельные сервисы внутри данного решения.

Big Data в бизнесе

+3

ph_piter 15 дек 2017 в 17:36

Глубокое обучение при помощи Spark и Hadoop: знакомство с Deeplearning4j

12 мин

14K

Блог компании Издательский дом «Питер»Apache*Big Data*Профессиональная литература*Hadoop*

Перевод

Здравствуйте, уважаемые читатели!

Мы вполне убедились в мегапопулярности глубокого обучения (Deep Learning) на языке Python в нашей целевой аудитории. Теперь предлагаем поговорить о высшей лиге глубокого обучения — то есть, о решении этих задач на языке Java при помощи библиотеки Deeplearning4j. Мы перевели для вас июньскую статью из блога компании Cloudera, где в интереснейших подробностях рассказано о специфике этой библиотеки и о глубоком обучении в Hadoop и Spark.

Приятного чтения.

Читать дальше →

+14

osma 20 окт 2017 в 09:09

Открытая трансляция из главного зала SmartData 2017: речь не про решения — речь про эволюцию

5 мин

6.7K

Блог компании JUG Ru GroupBig Data*Машинное обучение*Hadoop*

Как мы уже неоднократно сообщали ранее, в этом году компания JUG.ru Group решила заглянуть в будущее и ~~разобраться, какая необходимость двум серым ящикам взаимодействовать друг с другом~~ впустить в наш мир дозу сакральных знаний по Big Data и машинному обучению — мы сделали конференцию SmartData 2017, которая пройдёт в Питере 21 октября.

Зачем мы собираем конференцию по Big Data и машинному обучению? Потому что не можем не собрать. И чтобы обратить в наше братство как можно большее количество разработчиков, мы традиционно открываем бесплатную онлайн-трансляцию из первого зала конференции.

Итак, бесплатная онлайн-трансляция из главного зала SmartData 2017 начнётся 21 октября 2017 года в 9:30 утра по московскому времени. Только вы, мы и будущее. В этот раз трансляция будет доступна в 2k — доставайте ваши 4k мониторы!

Ссылка на онлайн-трансляцию первого трека конференции SmartData 2017 и краткое описание докладов — под катом.

Читать дальше →

+22

Yo1 4 сен 2017 в 18:17

Bigdata стек глазами воинствующего ораклойда

6 мин

7.9K

Big Data*Hadoop*

Из песочницы

Recovery Mode

На Хабре и прочих интернетах чуть не каждый день постят пустые статьи о бигдата, создавая у спецов стойкое ощущение, что кроме маркетинга за стеком бигдаты ничего нет. На самом деле там достаточно интересных технологий под капотом Hadoop и тут я хочу слегка разбавить маркетинг, взглядом технического спеца с опытом Oracle.

В первую очередь стоит понимать, что один из столпов бигдаты Hadoop, это не только батч процессинг и map-reduce, как многие пытаются изобразить. Это запросто может быть обработка и с противоположного спектра задач: чтение потока мелких сообщений, например от IoT (spark на Hadoop, читает Kafka stream), на ходу агрегируя и выявляя отклонения.

Читать дальше →

+8

Leono 10 июл 2017 в 16:14

Лекция о двух библиотеках Яндекса для работы с большими данными

8 мин

13K

Блог компании ЯндексBig Data*Промышленное программирование*Hadoop*

Пару недель назад в Яндексе прошла встреча PyData, посвящённая анализу больших данных с использованием Python. В том числе на этой встрече выступил Василий Агапитов — руководитель группы разработки инструментов аналитики Яндекса. Он рассказал о двух наших библиотеках: для описания и запуска расчетов на MapReduce и для извлечения информации из логов.

Под катом — расшифровка и часть слайдов.

+33

msetkin 5 июл 2017 в 17:27

Big Data в Райффайзенбанке

6 мин

23K

Блог компании Райффайзен БанкBig Data*Hadoop*

Всем привет! В этой статье мы расскажем про Big Data в Райффайзенбанке. Но прежде чем перейти к сути, хотелось бы внести ясность по поводу самого определения Big Data. Действительно, в последние несколько лет этот термин употреблялся во множестве контекстов, что привело к размытию границ самого термина и потере содержательной части. Мы в Райффайзенбанке выделили три направления, которые мы относим к Big Data:

Читать дальше →

+17

2ANikulin 16 июн 2017 в 07:29

Apache Spark как ядро проекта. Часть 2. Streaming, и на что мы напоролись

3 мин

9.2K

Big Data*Hadoop*

Привет коллеги. Да, не прошло и три года с первой статьи, но проектная пучина отпустила только сейчас. Хочу с вами поделиться своими соображениями и проблемами касательно Spark streaming в связке с Kafka. Возможно среди вас есть люди с успешным опытом, поэтому буду рад пообщаться в комментариях.

Читать дальше →

+10

m1rko 30 мар 2017 в 16:03

Инфраструктура Twitter: масштаб

15 мин

17K

Высокая производительность*Мессенджеры*MySQL*Twitter API*Hadoop*

Перевод

Обзор парка Twitter

Twitter пришёл из эпохи, когда в дата-центрах было принято устанавливать оборудование от специализированных производителей. С тех пор мы непрерывно разрабатывали и обновляли серверный парк, стремясь извлечь пользу из последних открытых технологических стандартов, а также повысить эффективность работы оборудования, чтобы обеспечить наилучший опыт для пользователей.

Наше текущее распределение оборудования показано ниже:

Читать дальше →

+27

alexkrash 15 фев 2017 в 12:55

Распределённый xargs, или Исполнение гетерогенных приложений на Hadoop-кластере

9 мин

7.7K

Блог компании BadooOpen source*Java*Big Data*Hadoop*

enter image description here

Привет, Хабр! Меня зовут Александр Крашенинников, я руковожу DataTeam в Badoo. Сегодня я поделюсь с вами простой и элегантной утилитой для распределённого выполнения команд в стиле xargs, а заодно расскажу историю её возникновения.

Наш отдел BI работает с объёмами данных, для обработки которых требуются ресурсы более чем одной машины. В наших процессах ETL (Extract Transform Load) в ход идут привычные миру Big Data распределённые системы Hadoop и Spark в связке с OLAP-базой Exasol. Использование этих инструментов позволяет нам горизонтально масштабироваться как по дисковому пространству, так и по CPU/ RAM.

Безусловно, в наших процессах ETL существуют не только тяжеловесные задачи на кластере, но и машинерия попроще. Широкий пласт задач решается одиночными PHP/ Python-скриптами без привлечения гигабайтов оперативной памяти и дюжины жёстких дисков. Но в один прекрасный день нам потребовалось адаптировать одну CPU-bound задачу для выполнения в 250 параллельных инстансов. Настала пора маленькому Python-скрипту покинуть пределы родного хоста и устремиться в большой кластер!

Читать дальше →

+51

olegbunin 9 янв 2017 в 03:44

С чего начать внедрение Hadoop в компании

16 мин

29K

Блог компании Конференции Олега Бунина (Онтико)Высокая производительность*Data Mining*Big Data*Hadoop*

Алексей Еремихин ( alexxz )

Я хочу навести порядок в головах, чтобы люди поняли, что такое Hadoop, и что такое продукты вокруг Hadoop, а также для чего не только Hadoop, но и продукты вокруг него можно использовать на примерах. Именно поэтому тема — «С чего начать внедрение Hadoop в компании?»

Структура доклада следующая. Я расскажу:

какие задачи я предлагаю решать с помощью Hadoop на начальных этапах,
что такое Hadoop,
как он устроен внутри,
что есть вокруг него,
как Hadoop применяется в Badoo в рамках решения задач с первого пункта.

Читать дальше →

+35

facha 6 янв 2017 в 21:07

Hadoop From Scratch

17 мин

17K

Big Data*Hadoop*

Туториал

Эта статья послужит практическим руководством по сборке, начальной настройке и тестированию работоспособности Hadoop начинающим администраторам. Мы разберем, как собрать Hadoop из исходников, сконфигурировать, запустить и проверить, что все работает, как надо. В статье вы не найдете теоретической части. Если вы раньше не сталкивались с Hadoop, не знаете из каких частей он состоит и как они взаимодействуют, вот пара полезных ссылок на официальную документацию:

hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/YARN.html

Почему просто не использовать готовый дистрибутив?

— Обучение. Похожие статьи часто начинаются с рекомендаций скачать образ виртуальной машины с дистрибутивом Cloudera или HortonWorks. Как правило, дистрибутив – сложная экосистема с уймой компонент. Новичку будет непросто разобраться, где что, и как это все взаимодействует. Начиная from scratch мы немного уменьшаем порог вхождения, так как имеем возможность рассматривать компоненты по одной.

— Функциональные тесты и бенчмарки. Есть небольшой лаг между выходом новой версии продукта, и моментом, когда она появляется в дистрибутиве. Если вам необходимо протестировать новые функции только что появившейся версии, Вы не сможете использовать готовый дистрибутив. Также будет сложно сравнить производительность двух версий одного и того же софта, так как в готовых дистрибутивах как правило отсутствует возможность обновить версию какого-либо одного компонента, оставив все остальное как есть.

— Just for fun.

Читать дальше →

+13

artem_vedernikov 26 дек 2016 в 14:32

Архитектура хранения данных в Facetz.DCA

5 мин

6.1K

Блог компании DCA (Data-Centric Alliance)IT-инфраструктура*Хранение данных*Хранилища данных*Hadoop*

В цикле статей «BigData от А до Я» мы рассмотрели один из наиболее часто используемых технологических стеков для работы с большими данными Apache Hadoop и привели примеры его использования в продуктах DCA. Теперь мы расскажем, как выглядит архитектура хранения данных в Facetz.DCA.

Читать дальше →

+10

sashaboyko 14 ноя 2016 в 13:04

Есть ли будущее у InfiniBand на Hadoop?

7 мин

5.1K

Блог компании SIM-NetworksIT-инфраструктура*Сетевые технологии*Серверное администрирование*Hadoop*

Перевод

Hadoop был создан для запуска на чипах компьютеров широкого употребления с сетевым подключением с низкой скоростью. Но Hadoop кластеры стали больше и организации превысили лимит мощности. Для решения проблемы были найдены специализированные решения такие как твердотельные накопители и сети InfiniBand, у которых есть запас роста.

InfiniBand был представлен миру в 2000 году как сетевой протокол, который был быстрее чем TCP/IP — первоначальный сетевой протокол в сетях Ethernet. Благодаря использованию прямого удаленного доступа к памяти (Remote Direct Memory Access (RDMA) InfiniBand позволяет напрямую записывать/копировать данные из памяти удаленного компьютера, обходя операционную систему и возможные задержки.

Читать дальше →

+10

Arhimagic 10 окт 2016 в 16:53

Когда старый MapReduce лучше нового Tez

9 мин

13K

Блог компании VKВысокая производительность*SQL*Big Data*Hadoop*

Как всем известно, количество данных в мире растёт, собирать и обрабатывать поток информации становится всё сложнее. Для этого служит популярное решение Hadoop c идеей упрощения методов разработки и отладки многопоточных приложений, использующее парадигму MapReduce. Эта парадигма не всегда удачно справляется со своими задачами, и через некоторое время появляется «надстройка» над Hadoop: Apache Tez с парадигмой DAG. Под появление Tez подстраивается и HDFS-SQL-обработчик Hive. Но не всегда новое лучше старого. В большинстве случаев HiveOnTez значительно быстрее HiveOnMapReduce, но некоторые подводные камни могут сильно повлиять на производительность вашего решения. Здесь я хочу рассказать, с какими нюансами столкнулся. Надеюсь, это поможет вам ускорить ETL или другой Hadoop UseCase.

Читать дальше →

+39

m31 29 сен 2016 в 13:24

Видеозапись вебинара «Инструменты для работы Data Scientist»

1 мин

5K

Блог компании FlyElephantВысокая производительность*Data Mining*Big Data*Hadoop*

Вчера наша команда провела вебинар на тему «Инструменты для работы Data Scientist». В его рамках мы рассмотрели, кто такой data scientist и какими инструментами он пользуется. Поговорили о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.

Смотреть видеозапись и презентацию

+12

m31 19 сен 2016 в 16:03

Вебинар: Инструменты для работы Data Scientist

1 мин

4.1K

Блог компании FlyElephantВысокая производительность*Data Mining*Big Data*Hadoop*

Команда FlyElephant приглашает всех 28 сентября в 16.00 на вебинар «Инструменты для работы Data Scientist». В его рамках мы рассмотрим, кто такой data scientist и какими инструментами он пользуется. Поговорим о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.

Содержание вебинара:

Data Science
Data Scientist vs Data Engineer
How does it work?
Notebook / IDE
Methods & Algorithms
Software
Deep Learning Tools
Programming Languages
Cloud Services
Computing power
Competitions
FlyElephant

Зарегистрироваться на вебинар можно здесь.

+5

Deneb 12 авг 2016 в 15:03

Flume — управляем потоками данных. Часть 3

12 мин

12K

Блог компании DCA (Data-Centric Alliance)Анализ и проектирование систем*Big Data*Hadoop*

Привет, Хабр! После долгой паузы мы наконец-то возвращаемся к разбору Apache Flume. В предыдущих статьях мы познакомились с Flume (Часть 1) и разобрались, как настраивать основные его компоненты (Часть 2). В этой, заключительной, части цикла мы рассмотрим следующие вопросы:

Как настроить мониторинг компонентов узла.
Как написать собственную реализацию компонента Flume.
Проектирование полноценной транспортной сети.

Читать дальше →

+19

vbabaev 22 июл 2016 в 10:43

Strata + Hadoop 2016 review

10 мин

5.6K

Блог компании BadooВысокая производительность*Программирование*Big Data*Hadoop*

В последний год в Badoo стали очень активно использовать связку Hadoop + Spark и построили свою систему сбора и обработки десятков миллионов метрик при помощи Spark Streaming.
Для того чтобы расширить наши знания и познакомиться с последними новинками в этой сфере, в конце мая этого года разработчики отдела BI (Business Intelligence) отправились в Лондон, где проходила очередная конференция серии Hadoop + Strata, посвященная широкому спектру вопросов в области машинного обучения, обработки и анализа больших данных.

Читать дальше →

+15

yusman 22 июн 2016 в 09:07

Big Data головного мозга

14 мин

93K

Big Data*Hadoop*

Наверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.

Демонстрация Hadoop пользователям

Читать дальше →

+35

rzykov 7 июн 2016 в 16:50

Курс молодого бойца для Spark/Scala

3 мин

27K

Блог компании Retail RocketData Mining*Scala*Big Data*Hadoop*

Хабр, привет!

Команда Retail Rocket использует узкоспециализированный стек технологий Hadoop + Spark для вычислительного кластера, о котором мы уже писали обзорный материал в самом первом посте нашего инженерного блога на Хабре.

Готовых специалистов для таких технологий найти довольно сложно, особенно, если учесть, что программируем мы исключительно на Scala. Поэтому я стараюсь найти не готовых специалистов, а людей, имеющих минимальный опыт работы, но обладающих большим потенциалом. Мы берем даже людей с частичной занятостью, чтобы было удобно совмещать учебу и работу, если кандидат — студент последних курсов.

Читать дальше →

+15

6