Hadoop *

Фреймворк для распределённых приложений

СтатьиПостыНовостиАвторыКомпании

Falcon_eye 25 ноя 2023 в 20:11

Оптимизация запроса и запрос оптимизации

Средний

3 мин

6.4K

Data Engineering*Hadoop*SQL*Базы данных*

Из песочницы

Recovery Mode

Как не грабить память, не пытать диск, не мучать кластер. Или делать все это всего одним запросом на Impala к Hadoop.

Среди задач аналитиков данных, в рамках которых необходимо иметь дело с большими объемами однотипных данных, выделяются задачи построения витрин данных, автоматизации процессов сбора и обработки данных. Многие аналитики используют различные реляционные базы данных, в таблицах которых хранятся огромные объемы информации, агрегация и доступ к которым может занимать долгое время, поэтому правильное составление и оптимизация запросов к этим таблицам становится критически необходимым фактором для работы аналитиков, инженеров данных и data scientist.

sle_mary 29 сен 2023 в 14:51

Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде

Средний

9 мин

Блог компании МегаФонPython*Big Data*Машинное обучение*Hadoop*

Туториал

Привет, Habr !

Я работаю инженером по машинному обучению в Мегафоне. Занимаюсь аналитикой данных и являюсь частью команды разработки MLOps платформы. Задача нашей команды состоит в том, чтобы выстраивать и оптимизировать процессы разработки и продуктивизации моделей машинного обучения, предоставлять функционал для основных этапов (сбор данных, MQ/DQ, продуктивизация).

Сегодня поговорим о том, какие сложности могут возникать при работе с кластером Hadoop и какие есть методы для их решения.

Видеозапись по мотивам статьи можно посмотреть здесь.

Эта статья будет интересна аналитикам и инженерам, которые работают с BigData и регулярно сталкиваются с необходимостью продуктивизировать модели на Hadoop.

PastorGL 22 сен 2023 в 13:36

Искусство ETL. FAQ по Data Cooker ETL

5 мин

Big Data*Data Engineering*Hadoop*Open source*SQL*

FAQ

Как и было обещано, в завершение серии ( 1 • 2 • 3 • 4 • 5 ) статей о разработке инструмента для ETL больших данных, я выкладываю выжимку ответов на вопросы.

А то статьи были в формате туториала для разработчиков таких инструментов (длинные и с высоким уровнем сложности), так что стоит рассказать более кратко и понятно для каждого.

Q. Что это такое?

A. Специализированный инструмент для а) быстрого создания ETL процессов и б) эффективного по стоимости их выполнения.

Промка: https://dcetl.ru
Исходники: https://github.com/PastorGL/datacooker-etl
Официальная группа в телеге: https://t.me/data_cooker_etl

Читать дальше →

PastorGL 18 сен 2023 в 13:34

Искусство ETL. Пишем собственный движок SQL на Spark [часть 5 из 5]

Сложный

14 мин

Программирование*SQL*Open source*Hadoop*Big Data*

Туториал

REPL

В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

Краткое содержание предыдущей серии, посвящённой API расширения и разного рода технической обвязке:

Расширяемость. API подключаемых функций
Режимы запуска. Пакетный режим, сборка для разных окружений, автотесты

Теперь можно поговорить о последних штрихах, делающих инструмент — инструментом, а именно, об интерактивно-отладочном режиме, то есть, REPL, клиенте и сервере, а также о генераторе документации.

Предупреждение о рейтинге «M for Mature»

Уровень сложности данной серии статей — высокий. Базовые понятия по ходу текста вообще не объясняются, да и продвинутые далеко не все. Поэтому, если вы не разработчик, уже знакомый с терминологией из области бигдаты и жаргоном из дата инжиниринга, данные статьи будут сложно читаться, и ещё хуже пониматься. Я предупредил.

Читать дальше →

PastorGL 15 сен 2023 в 13:16

Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]

Сложный

15 мин

1.9K

Программирование*Open source*Java*Hadoop*Big Data*

Туториал

public abstract class Operation implements Configurable<OperationMeta>

В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

Краткое содержание предыдущей серии, посвящённой имплементации спеки языка в коде:
Заметка об использовании prior art
Наборы данных в контексте исполнения
Переменные, настройки контекста исполнения, и метаданные параметров подключаемых функций
Интерпретатор, контекст исполнения, операторы выражений

Разобравшись со всеми контекстами и устройством ядра интерпретатора, можно перейти к описанию API точек расширения, режимов запуска, и технической обвязки сборки исполняемых артефактов.

Предупреждение о рейтинге «M for Mature»

Читать дальше →

+10

PastorGL 14 сен 2023 в 14:00

Искусство ETL. Пишем собственный движок SQL на Spark [часть 3 из 5]

Сложный

20 мин

Big Data*Hadoop*Java*Open source*SQL*

Туториал

04_assets_residents.tdl

В данной серии статей я подробно рассказываю о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

Краткое содержание предыдущей серии, последней, посвящённой проектированию спецификации языка:
Операторы жизненного цикла наборов данных (продолжение)
Операторы контроля потока выполнения
Операторы управления контекстом исполнения
Операторы выражений

В данном эпизоде мы наконец-то перейдём к самому интересному — имплементации. Хорошо, когда есть развёрнутая постановка задачи, можно просто брать спеку, и писать код согласно плану.

Предупреждение о рейтинге «M for Mature»

Читать дальше →

PastorGL 13 сен 2023 в 11:50

Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]

Сложный

13 мин

1.9K

Программирование*Open source*Java*Hadoop*Big Data*

Туториал

В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

Краткое содержание предыдущей серии:
Вступление
Постановка задачи
Проектирование языка. Операторы жизненного цикла наборов данных
Проектирование системы типов

Предупреждение о рейтинге «M for Mature»

Читать дальше →

+10

PastorGL 12 сен 2023 в 13:40

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

Сложный

18 мин

8.4K

Big Data*Data Engineering*Hadoop*Java*Open source*

Туториал

В данной серии статей я подробно расскажу о том, как написать на Java собственный интерпретатор объектно-ориентированного диалекта SQL с использованием Spark RDD API, заточенный на задачи подготовки и трансформации наборов данных.

— Евдокимов, ты что, совсем уже там кукухой поехал?! При живом-то Spark SQL! Опять ты ненормальным программированием маешься, нет бы что-то полезное делал…
— Ну-ну-ну, спокойно, спокойно. Я ещё настолько не уехал, чтобы потратить целый год на страдание полной ерундой. Речь на сей раз пойдёт не о развлекухе, а о диалекте языка, специализированном для решения целого класса задач, для которых любой существующий SQL был бы, в теории, хорошим решением, если бы не несколько серьёзных «но».

Короче, у нас будет немного не такой SQL, который вы все так хорошо знаете, но и этот вариант вы полюбите, я обещаю. Тут лучше другой вопрос задать:
— Разве кому-то нужен голый SQL-ный движок?

Нет, голый — не нужен. Так рассказывать я буду о разработке настоящего production ready инструмента, с интерактивным шеллом с подсветкой синтаксиса и автодополнением, который сможет работать в клиент-серверном режиме, и не только на кластере, но и локально. Да не монолитный, а расширяемый при помощи подключаемых функций. И с автогенератором документации впридачу. Короче, всё будет совсем по-взрослому, с рейтингом M for Mature.

В каком смысле «M for Mature»?

Читать дальше →

+20

shveenkov 20 июн 2023 в 08:04

Зачем Data-инженеру Spark

Средний

24 мин

14K

Блог компании VKHadoop*Data Engineering*

Аналитика

Привет, Хабр, меня зовут Дима. В последние пару лет занимаюсь аналитикой, отвечаю за данные в Почте Mail.ru. Развиваю аналитическое хранилище данных и инструменты для работы с ними. Мы плотно работаем со стеком Hadoop, Hive, Spark, Clickhouse и Kafka. Я хочу остановиться на некоторых аспектах работы с данными в Spark: как мы храним петабайты информации и как выполняем запросы к ним?

Прежде всего поделюсь своими практическими наблюдениями. Расскажу как в нашем хранилище мы превратили 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов. И также расскажу о ключевых проблемах с данными, знание о которых помогло бы вам построить своё классное хранилище без последующей переделки.

+36

BioQwer 7 июн 2023 в 08:09

Кейс внедрение Dbt в «Детском мире»

Сложный

3 мин

5.5K

SQL*Big Data*Визуализация данных*Hadoop*Data Engineering*

Туториал

Cезон big data

Всем привет! Меня зовут Антон и я руковожу Big Data платформой в Детском Мире.

На Хабре проходит сезон Больший данных, и я решил что это отличная возможность поделиться нашим опытом внедрения Dbt (инструмент для оркестрации Sql витрины). На хабре уже статьи по инструменту, в моей статье, покажу как пришли от запуска ноутбука в Zeppelin к промышленному решению запуска большого количества витрин написанных на SparkSql в OnPrem Hadoop.

alexeyAP1 29 апр 2023 в 19:07

Мнение об интенсивах Академии Яндекса + выпускной проект

Простой

11 мин

10K

Hadoop*Интернет-маркетинг*Визуализация данных*Big Data*Облачные сервисы*

Из песочницы

Всем привет! Я выпускник данной Академии и победитель в конкурсе проектов. Я получил уникальный опыт, который будет полезен начинающим специалистам

Этот обзор подойдет в первую очередь тем, кто еще учится в вузе или школе, а также тем у кого есть дети данного возраста - Интенсивы рассчитаны на молодых людей до 19 лет.

Предвкушаю вопросы, поэтому я сразу говорю - обзор не реклама. Не путайте Практикум и Академию, академия - некоммерческая организация, а интенсивы - бесплатные курсы, которые (внезапно) просто дают знания.

Минусы и результаты собеседований после курсов - перед началом секции "проект" - эти 3 модуля покажут реальный уровень выпускников академии. Все что будет дальше является сугубо личным мнением. Приступим!

Узнать больше о курсах...

+12

Toor3-14 2 мар 2023 в 13:36

MapReduce: как и зачем?

Простой

3 мин

35K

Java*Базы данных*Hadoop*Big Data*

Туториал

Cезон big data

Из песочницы

Пример задачи.

Хотим автоматизировать огромный фруктовый рынок. На каждое событие будем писать строчку в структурированный лог. Этот лог не является частью runtime функционирования рынка, но может быть полезен для изучения статистики и аналитики.

Например, на основании лога продавец может сделать вывод, что свежие яблоки выгоднее привозить к 13:00.

NewTechAudit 23 янв 2023 в 11:31

Выбираем формат хранения данных в экосистеме Hadoop

5 мин

7.6K

Программирование*Apache*Hadoop*Data Engineering*

Кейс

✏️ Технотекст 2023

Привет, %username%! Меня зовут Кирилл Фурзанов, я Data Scientist в Сбере, участник профессионального сообщества NTA. При формировании витрин данных и датасетов в экосистеме Hadoop одним из важных вопросов является выбор оптимального способа хранения данных в hdfs. Рассмотрим один из важных вопросов при создании витрины – выбор соответствующего формата файла для хранения.

rufous86 12 янв 2023 в 19:27

Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

15 мин

2.6K

Data Engineering*Hadoop*Big Data*Python*

Туториал

Перевод

Автор оригинальной статьи: Kevin Kho

Повышение производительности разработчиков и снижение затрат на проекты Big Data

rufous86 29 дек 2022 в 12:27

Pyspark. Анализ больших данных, когда Pandas не достаточно

4 мин

51K

Big Data*Hadoop*Python*

Из песочницы

Pandas - одна из наиболее используемых библиотек Python с открытым исходным кодом для работы со структурированными табличными данными для анализа. Однако он не поддерживает распределенную обработку, поэтому вам всегда придется увеличивать ресурсы, когда вам понадобится дополнительная мощность для поддержки растущих данных. И всегда наступит момент, когда ресурсов станет недостаточно. В данной статье мы рассмотрим, как PySpark выручает в условиях нехватки мощностей для обработки данных.

Ну что же, приступим...

Sber 5 дек 2022 в 13:40

Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти

6 мин

1.8K

Блог компании СберБазы данных*Hadoop*Big Data*

И снова здравствуй, Хабр! Сегодня поговорим об актуальной для многих из нас проблеме при работе с базами данных. В ходе работы над разными проектами часто приходится создавать базу данных (командное пространство, песочница и т.п.), которую использует как сам автор, так и/или коллеги для временного хранения данных. Как у любого «помещения», в нашей «песочнице» есть своё ограничение по объёму выделенного места для хранения данных. Периодически бывает так, что вы или ваши коллеги забываете об этом маленьком ограничении, из-за чего, к сожалению, заканчивается объём выделенной памяти.

В этом случае можно применить маленький лайфхак, который позволит оперативно просмотреть, какая таблица больше всего занимает место, кто её владелец, как долго она находится в общей песочнице и т.д. Используя его, вы оперативно сможете почистить место в песочнице, предварительно согласовав действия с владельцем данных без нанесения вреда данным остальных коллег. Кроме того, этот инструмент позволит периодически проводить мониторинг наполняемости вашей общей песочницы.

bmurashin 11 ноя 2022 в 14:48

Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

8 мин

5.5K

Блог компании X5 TechСистемное администрирование*Big Data*Hadoop*

Привет, Хабр! Меня зовут Борис Мурашин, я системный архитектор развития платформы больших данных в Х5 Tech. В статье делюсь своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки мне удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это. Надеюсь, что мои инструкции помогут другим сэкономить массу времени в работе с кластером.

Сколько места на диске используют таблицы Hive в HDFS? В каких из них много мелких файлов? Какая динамика у этих цифр? Что происходит в домашних каталогах пользователей? Кто прямо сейчас создаёт таблицу с партиционированием по timestamp и скоро «уложит» нэймноду по GC pause? Давайте разбираться.

vasenkovid 30 авг 2022 в 08:02

Что должен знать дата-инженер. Роадмап для джуниора

7 мин

45K

Блог компании Lamoda TechBig Data*Карьера в IT-индустрииHadoop*Data Engineering*

Технотекст 2022

Привет, username! Меня зовут Иван Васенков и я джуниор дата-инженер в дирекции данных и аналитики Lamoda. Но к этой профессии я пришел не сразу: окончив университет, я начал работать аналитиком данных, затем стал BI-разработчиком, а уже после этого — дата-инженером.

На моем пути были простые и сложные участки: где-то помогал опыт предыдущей работы, а где-то приходилось доучиваться практически на ходу. Именно поэтому я хочу поделиться советами из своего опыта, которые помогут начинающим специалистам быть максимально готовыми к вступлению в мир дата-инжиниринга.

+22

Bee_brightside 29 июл 2022 в 13:19

Как реализовать магию Sqoop для загрузки данных через Spark

29 мин

3.2K

Блог компании билайн бизнесSQL*Big Data*Хранение данных*Hadoop*

Очень часто приходится слышать, что Sqoop — это серебряная пуля для загрузки данных большого объёма с реляционных БД в Hadoop, особенно с Oracle, и Spark-ом невозможно достигнуть такой производительности. При этом приводят аргументы, что sqoop — это инструмент, заточенный под загрузку, а Spark предназначен для обработки данных.

Меня зовут Максим Петров, я руководитель департамента "Чаптер инженеров данных и разработчиков", и я решил написать инструкцию о том, как правильно и быстро загружать данные Spark, основываясь на принципах загрузки Sqoop.

Первичное сравнение технологий

В нашем примере будем рассматривать загрузку данных из таблиц OracleDB.

Рассмотрим случай, когда нам необходимо полностью перегрузить таблицу/партицию на кластер Hadoop c созданием метаданных hive.

+11

oneFactor 14 июн 2022 в 14:03

«Kubernetes как часть data platform»

6 мин

4.1K

Блог компании UzumHadoop*Kubernetes*

Технотекст 2022

Привет, Хабр! Меня зовут Денис, в компании oneFactor я занимаю позицию архитектора, и одна из моих обязанностей — это развитие технического стека компании. В этой статье я расскажу про нашу data platform’у (далее просто DP или платформа) и про мотивацию внедрения в неё Kubernetes. Также подсвечу трудности, с которыми мы столкнулись в рамках пилота. И расскажу про набор активностей, которые не вошли в пилот, но будут выполнены во время миграции. Дополнительно представлю короткий обзор текущей интеграции между Spark и Kubernetes. Стоит отметить, что вопросы, связанные с хранилищем, здесь обсуждаться не будут.

3 4 ...

11 12

Hadoop *

Оптимизация запроса и запрос оптимизации

Hadoop в любой непонятной ситуации. Как выжить кластеру в большой ML команде

Искусство ETL. FAQ по Data Cooker ETL

Искусство ETL. Пишем собственный движок SQL на Spark [часть 5 из 5]

Искусство ETL. Пишем собственный движок SQL на Spark [часть 4 из 5]

Искусство ETL. Пишем собственный движок SQL на Spark [часть 3 из 5]

Искусство ETL. Пишем собственный движок SQL на Spark [часть 2 из 5]

Искусство ETL. Пишем собственный движок SQL на Spark [часть 1 из 5]

Зачем Data-инженеру Spark

Кейс внедрение Dbt в «Детском мире»

Мнение об интенсивах Академии Яндекса + выпускной проект

MapReduce: как и зачем?

Выбираем формат хранения данных в экосистеме Hadoop

Ближайшие события

Знакомство с Fugue — уменьшаем шероховатости при работе с PySpark

Pyspark. Анализ больших данных, когда Pandas не достаточно

Как найти «слона» в песочнице на Hadoop: решаем проблему с ограничением объёма выделенной памяти

Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

Что должен знать дата-инженер. Роадмап для джуниора

Как реализовать магию Sqoop для загрузки данных через Spark

«Kubernetes как часть data platform»

Вклад авторов