Как стать автором

Hadoop *

Фреймворк для распределённых приложений

Статьи Посты Новости Авторы Компании

Arhimagic 10 окт 2016 в 16:53

Когда старый MapReduce лучше нового Tez

9 мин

14K

Блог компании VKBig Data*Hadoop*SQL*Высокая производительность*

Как всем известно, количество данных в мире растёт, собирать и обрабатывать поток информации становится всё сложнее. Для этого служит популярное решение Hadoop c идеей упрощения методов разработки и отладки многопоточных приложений, использующее парадигму MapReduce. Эта парадигма не всегда удачно справляется со своими задачами, и через некоторое время появляется «надстройка» над Hadoop: Apache Tez с парадигмой DAG. Под появление Tez подстраивается и HDFS-SQL-обработчик Hive. Но не всегда новое лучше старого. В большинстве случаев HiveOnTez значительно быстрее HiveOnMapReduce, но некоторые подводные камни могут сильно повлиять на производительность вашего решения. Здесь я хочу рассказать, с какими нюансами столкнулся. Надеюсь, это поможет вам ускорить ETL или другой Hadoop UseCase.

Читать дальше →

+39

m31 29 сен 2016 в 13:24

Видеозапись вебинара «Инструменты для работы Data Scientist»

1 мин

5.1K

Блог компании FlyElephantВысокая производительность*Hadoop*Data Mining*Big Data*

Вчера наша команда провела вебинар на тему «Инструменты для работы Data Scientist». В его рамках мы рассмотрели, кто такой data scientist и какими инструментами он пользуется. Поговорили о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.

Смотреть видеозапись и презентацию

+12

m31 19 сен 2016 в 16:03

Вебинар: Инструменты для работы Data Scientist

1 мин

4.2K

Блог компании FlyElephantВысокая производительность*Hadoop*Data Mining*Big Data*

Команда FlyElephant приглашает всех 28 сентября в 16.00 на вебинар «Инструменты для работы Data Scientist». В его рамках мы рассмотрим, кто такой data scientist и какими инструментами он пользуется. Поговорим о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.

Содержание вебинара:

Data Science
Data Scientist vs Data Engineer
How does it work?
Notebook / IDE
Methods & Algorithms
Software
Deep Learning Tools
Programming Languages
Cloud Services
Computing power
Competitions
FlyElephant

Зарегистрироваться на вебинар можно здесь.

+5

Deneb 12 авг 2016 в 15:03

Flume — управляем потоками данных. Часть 3

12 мин

12K

Блог компании DCA (Data-Centric Alliance)Анализ и проектирование систем*Hadoop*Big Data*

Привет, Хабр! После долгой паузы мы наконец-то возвращаемся к разбору Apache Flume. В предыдущих статьях мы познакомились с Flume (Часть 1) и разобрались, как настраивать основные его компоненты (Часть 2). В этой, заключительной, части цикла мы рассмотрим следующие вопросы:

Как настроить мониторинг компонентов узла.
Как написать собственную реализацию компонента Flume.
Проектирование полноценной транспортной сети.

Читать дальше →

+19

vbabaev 22 июл 2016 в 10:43

Strata + Hadoop 2016 review

10 мин

5.6K

Блог компании BadooПрограммирование*Высокая производительность*Hadoop*Big Data*

В последний год в Badoo стали очень активно использовать связку Hadoop + Spark и построили свою систему сбора и обработки десятков миллионов метрик при помощи Spark Streaming.
Для того чтобы расширить наши знания и познакомиться с последними новинками в этой сфере, в конце мая этого года разработчики отдела BI (Business Intelligence) отправились в Лондон, где проходила очередная конференция серии Hadoop + Strata, посвященная широкому спектру вопросов в области машинного обучения, обработки и анализа больших данных.

Читать дальше →

+15

yusman 22 июн 2016 в 09:07

Big Data головного мозга

14 мин

94K

Big Data*Hadoop*

Наверно, в мире данных нет подобного феномена настолько неоднозначного понимания того, что же такое Hadoop. Ни один подобный продукт не окутан таким большим количеством мифов, легенд, а главное непонимания со стороны пользователей. Не менее загадочным и противоречивым является термин "Big Data", который иногда хочется писать желтым шрифтом(спасибо маркетологам), а произносить с особым пафосом. Об этих двух понятиях — Hadoop и Big Data я бы хотел поделиться с сообществом, а возможно и развести небольшой холивар.
Возможно статья кого-то обидит, кого-то улыбнет, но я надеюсь, что не оставит никого равнодушным.

Демонстрация Hadoop пользователям

Читать дальше →

+35

rzykov 7 июн 2016 в 16:50

Курс молодого бойца для Spark/Scala

3 мин

27K

Блог компании Retail RocketScala*Hadoop*Data Mining*Big Data*

Хабр, привет!

Команда Retail Rocket использует узкоспециализированный стек технологий Hadoop + Spark для вычислительного кластера, о котором мы уже писали обзорный материал в самом первом посте нашего инженерного блога на Хабре.

Готовых специалистов для таких технологий найти довольно сложно, особенно, если учесть, что программируем мы исключительно на Scala. Поэтому я стараюсь найти не готовых специалистов, а людей, имеющих минимальный опыт работы, но обладающих большим потенциалом. Мы берем даже людей с частичной занятостью, чтобы было удобно совмещать учебу и работу, если кандидат — студент последних курсов.

Читать дальше →

+15

asash 11 мая 2016 в 12:40

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

9 мин

96K

Big Data*Hadoop*

Туториал

Привет, Хабр! Мы продолжаем наш цикл статьей, посвященный инструментам и методам анализа данных. Следующие 2 статьи нашего цикла будут посвящены Hive — инструменту для любителей SQL. В предыдущих статьях мы рассматривали парадигму MapReduce, и приемы и стратегии работы с ней. Возможно многим читателям некоторые решения задач при помощи MapReduce показались несколько громоздкими. Действительно, спустя почти 50 лет после изобретения SQL, кажется довольно странным писать больше одной строчки кода для решения задач вроде «посчитай мне сумму транзакций в разбивке по регионам».

С другой стороны, классические СУБД, такие как Postgres, MySQL или Oracle не имеют такой гибкости в масштабировании при обработке больших массивов данных и при достижении объема большего дальнейшая поддержка становится большой головоной болью.

Собственно, Apache Hive был придуман для того чтобы объединить два этих достоинства:

Масштабируемость MapReduce
Удобство использования SQL для выборок из данных.

Под катом мы расскажем каким образом это достигается, каким образом начать работать с Hive, и какие есть ограничения на его применения.

Читать дальше →

+13

Deneb 21 апр 2016 в 12:20

Flume — управляем потоками данных. Часть 2

23 мин

14K

Блог компании DCA (Data-Centric Alliance)Веб-разработка*Анализ и проектирование систем*Hadoop*Big Data*

Привет, Хабр! Мы продолжаем цикл статей, посвященный Apache Flume. В предыдущей части мы поверхностно рассмотрели этот инструмент, разобрались с тем, как его настраивать и запускать. В этот раз статья будет посвящена ключевым компонентам Flume, с помощью которых не страшно манипулировать уже настоящими данными.

Читать дальше →

+30

Rigasproutes 19 апр 2016 в 09:53

Сравнение производительности Hadoop на DAS и Isilon

6 мин

4.1K

Блог компании Dell TechnologiesHadoop*Высокая производительность*

Перевод

Я уже писал о том, с помощью Isilon можно создавать озёра данных, способные одновременно обслуживать по несколько кластеров с разными версиями Hadoop. В той публикации я упомянул, что во многих случаях системы на Isilon работают быстрее, чем традиционные кластеры, использующие DAS-хранилища. Позднее это подтвердили и в IDC, прогнав на соответствующих кластерах различные Hadoop-бенчмарки. И на этот раз я хочу рассмотреть причины более высокой производительности Isilon-кластеров, а также как она меняется в зависимости от распределения данных и балансировки внутри кластеров.

Читать дальше →

+6

yuryemeliyanov 7 апр 2016 в 19:13

Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH

6 мин

23K

Блог компании Т-БанкBig Data*Hadoop*SQL*

В этой статье я хочу рассказать про важную задачу, о которой нужно думать и нужно уметь решать, если в аналитической платформе для работы с данными появляется такой важный компонент как Hadoop — задача интеграции данных Hadoop и данных корпоративного DWH. В Data Lake в Тинькофф Банке мы научились эффективно решать эту задачу и дальше в статье я расскажу, как мы это сделали.

Данная статья является продолжением цикла статей про Data Lake в Тинькофф Банке (предыдущая статья Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop).

Читать дальше →

+5

Deneb 29 мар 2016 в 18:44

Flume — управляем потоками данных. Часть 1

11 мин

34K

Блог компании DCA (Data-Centric Alliance)Веб-разработка*Анализ и проектирование систем*Hadoop*Big Data*

Привет, Хабр! В этом цикле статей я планирую рассказать о том, как можно организовать сбор и передачу данных с помощью одного из инструментов Hadoop — Apache Flume.

Читать дальше →

+17

Rovena 14 мар 2016 в 17:30

BDRA – современная архитектура для аналитики больших данных

9 мин

11K

Блог компании Hewlett Packard EnterpriseBig Data*Hadoop*

Под большими данными обычно понимают серию подходов, инструментов и методов обработки структурированных и неструктурированных данных, которые отличают огромные объёмы и значительное многообразие. Цель такой обработки — получение воспринимаемых человеком результатов.

Поток данных может поступать из разных источников, эти данные гетерогенны и передаются в различных форматах: текст, документы, изображения, видео и многое другое. Для извлечения из таких данных полезной информации определяющее значение имеет программно-аппаратная платформа.

Читать дальше →

+10

19 августа – 20 октября

RuCode.Финал. Чемпионат по алгоритмическому программированию и ИИ

Москва • Нижний Новгород • Екатеринбург • Ставрополь • Новосибриск • Калининград • Пермь • Владивосток • Чита • Краснорск • Томск • Ижевск • Петрозаводск • Казань • Курск • Тюмень • Волгоград • Уфа • Мурманск • Бишкек • Сочи • Ульяновск • Саратов • Иркутск • Долгопрудный • Онлайн

darikova 19 фев 2016 в 14:56

Как устроен Relap.io — сервис, который выдает 30 миллиардов рекомендаций в месяц

4 мин

35K

Блог компании SurfingbirdBig Data*Hadoop*Высокая производительность*Машинное обучение*

Recovery Mode

Мы давно ничего не писали в наш блог и возвращаемся с рассказом о нашем новом проекте: Relap.io (relevant pages).

Мы запустили рекомендательный B2B-сервис Relap.io полтора года назад. Он облегчает жизнь редакции и читателям СМИ. В будние дни Relap.io обслуживает 15 млн уников и выдаёт 30 миллиардов рекомендаций в месяц.

Сейчас Relap.io крупнейшая рекомендательная платформа в Европе и Азии.

Читать дальше →

+18

fediq 21 дек 2015 в 15:58

Scalding: повод перейти с Java на Scala

8 мин

22K

Scala*Java*Hadoop*Big Data*

Из песочницы

В этой статье я расскажу о Twitter Scalding – фреймворке для описания процесса обработки данных в Apache Hadoop. Я начну издалека, с истории фреймворков поверх Hadoop. Потом дам обзор возможностей Scalding. В завершение покажу примеры кода, доступные для понимания тем, кто знает Java, но почти не знаком со Scala.

Интересно? Поехали!

Читать дальше →

+18

Khodus 8 дек 2015 в 16:51

MongoDB как средство мониторинга LOG-файлов

9 мин

20K

Блог компании AT ConsultingBig Data*Hadoop*MongoDB*

В этой статье я расскажу об использовании нереляционной базы MongoDB для мониторинга журнальных файлов. Для мониторинга log-файлов существует множество инструментов, от мониторинга shell-скриптами, завязанными на cron, до кластера apache hadoop.

Подход с мониторингом скриптами текстовых файлов удобен только в простейших случаях, когда, например, проблемы выявляются наличием в журнальном файле строк «ERROR», «FAILURE», «SEVERE» и т.п. Для мониторинга больших файлов удобно использовать систему Zabbix, где Zabbix Agent (active) будет считывать только новые данные и с определённой периодичностью отправлять их на сервер.

Читать дальше →

+20

Account_is_busy 8 дек 2015 в 13:09

Видео докладов Badoo с конференции Highload 2015

1 мин

13K

Блог компании BadooВеб-разработка*Hadoop*

Наконец-то у нас появились видео выступления наших спикеров на Highload 2015, которые мы с удовольствием выкладываем.

Если у вас появятся вопросы к докладчикам, задавайте их в комментариях. Ребята на них обязательно ответят.

1. «Near-realtime аналитика событий в высоконагруженном проекте», доклад Александра Крашенинникова

Еще 3 отличных доклада

+23

facha 3 дек 2015 в 17:39

Kudu – новый движок хранения данных в экосистеме Hadoop

5 мин

13K

Big Data*Hadoop*

Kudu был одной из новинок, представленых компанией Cloudera на конференции “Strata + Hadoop World 2015”. Это новый движок хранения больших данных, созданный чтобы покрыть нишу между двумя уже существующими движками: распределенной файловой системой HDFS и колоночной базой данных Hbase.

Существующие на данный момент движки не лишены недостатков. HDFS, прекрасно справляющаяся с операциями сканирования больших объемов данных, показывает плохие результаты на операциях поиска. C Hbase все с точностью до наоборот. К тому же HDFS обладает дополнительным ограничением, а именно, не позволяет модифицировать уже записанные данные. Новый движок, согласно разработчикам, обладает преимуществами обеих существующих систем:
— операции поиска с быстрым откликом
— возможность модификации
— высокая производительность при сканировании больших объемов данных

Читать дальше →

+9

asash 9 ноя 2015 в 12:45

Big data от А до Я. Часть 3: Приемы и стратегии разработки MapReduce-приложений

7 мин

84K

Big Data*Hadoop*Веб-разработка*

Привет, Хабр! В предыдущих статьях мы описали парадигму MapReduce, а также показали как на практике реализовать и выполнить MapReduce-приложение на стеке Hadoop. Пришла пора описать различные приёмы, которые позволяют эффективно использовать MapReduce для решения практических задач, а также показать некоторые особенности Hadoop, которые позволяют упростить разработку или существенно ускорить выполнение MapReduce-задачи на кластере.

Читать дальше →

+23

tsafin 3 ноя 2015 в 15:58

Майкл Стоунбрейкер — Hadoop на распутье

11 мин

18K

Big Data*Hadoop*Высокая производительность*

Перевод

[@tsafin — Обладателя премии Тьюринга Майкла Стоунбрейкера представлять не надо, он и его студенты из Беркли и MIT создали, по ощущениям, большую часть реляционных и нереляционных баз данных за последние пару десятилетий. Ingres и Postgres, C-Store и Vertica, H-Store и VoltDB – вот лишь малая часть проектов и фирм, на который Майкл и его студенты повлияли напрямую, а ведь еще есть множество форков и деривативов…

Т.о. когда он критикует что-то, будь то NoSQL или Hadoop, то индустрии стоит, как минимум, прислушаться, а лучше попытаться измениться.

Мне показалось интересной его точка зрения на Hadoop, высказанная в статьях 2012 и 2014 года, и было интересно проследить развитие точки зрения «классика» за такой короткий промежуток времени.

Первую статью «Possible Hadoop Trajectories», опубликованную в «Comunications of ACM» http://cacm.acm.org/blogs/blog-cacm/149074-possible-hadoop-trajectories/fulltext, Стоунбрейкер написал в мае 2012 года в соавторстве с Джереми Кепнером (Jeremy Kepner), который в тот момент работал как старший технический персонал в MIT, и как исследователь в MIT Mathematics Department и MIT Computer Science and AI Lab. Эта статья, написанная в соавторстве, кажется более дерзкой и задорной, по сравнению со второй, написанной уже им самим двумя годами позже (да и, чего уж там, первая статья написана IMHO в лучшем стиле), но я публикую их в связке, т.к. контекст за прошедшие пару лет сильно изменился, и было бы нечестно по отношению к экосистеме Hadoop/HDFS оставлять это незамеченным.

Читать дальше →

+16

1 2 ...

7