yuryemeliyanov 6 окт 2017 в 16:11

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

7 мин

208K

Блог компании VKOpen source*Python*SQL*Big Data*

+23

Комментарии 26

buriy 6 окт 2017 в 16:44

Отличная штука для больших компаний! А какие решения вы бы предложили для компаний поменьше?

yuryemeliyanov 6 окт 2017 в 16:55

Спасибо за вопрос. Я хотел бы подчеркнуть что этот инструмент подходит для команда разных размеров и разных по объему задач. В силу того что он бесплатный, с открытым кодом, гибкий и удобный для быстрого старта вы можете организовать под свои требования свой сервис, будь у вас маленькая компания и вам будет достаточно одного сервера или же airflow подселенного на сервер БД, или будь у вас кластер Airflow для проворачивания тысяч задач и работы с гетерогенным хранилищем и гетерогенными источниками данных.

cthtuf 5 фев 2023 в 17:19

Очень жалею что мы, на этапе когда наша компания была маленькой, не выбрали этот инструмент, а навелосипедили свой.

furic 7 окт 2017 в 09:26

Очень хотелось бы услышать мнение автора о Spring dataflow в сравнении с airflow…

yuryemeliyanov 7 окт 2017 в 16:56

Со Spring dataflow не работал и мало что про него знаю. Если есть примеры и мнение по его части, напишите сюда, пожалуйста.

Aracon 7 окт 2017 в 15:12

А можно какие-то конкретные примеры использования? Пока просто не очень понятно, для чего именно этот инструмент. Это что-то вроде Huginn (https://habrahabr.ru/post/330382/), или тут другие задачи?

yuryemeliyanov 7 окт 2017 в 16:55

Если я правильно понял из статьи про Huginn, то Huginn это такой self-service mix из ESB+BPM. Airflow это совсем не про это. Вы работали с хранилищами данных? Или наверняка слышали про λ архитектуру? Airflow про ETL/ELT и batch слой вашей λ-ы. Кейс может быть простой: вам нужно собрать по клиенту кучу данных из разных источников и например раз в день (можно чаще) обновлять его собирательный профиль.

vobo 8 окт 2017 в 13:01

если вы в амазоне, то swf. В принципе, все очень похоже

yuryemeliyanov 8 окт 2017 в 13:09

Мы не в амазоне :)

xkrt 9 окт 2017 в 08:16

Для масштабирования не рассматривали интеграцию с Mesos?

yuryemeliyanov 9 окт 2017 в 09:12

Как делать масштабирование пока вопрос открытый. Оставлять CeleryExecutor или сделать шаг в сторону MesosExecutor — хз (хотел бы знать) как правильно. С Mesos экспертизы нет, а с Celery и Airflow работает у нас работает, и на Celery ещё пытаемся одну внутреннюю штуку писать. По этому сейчас кажется что несколько сельдереев (worker node) для нас будет оптимальным решением.
Если делать масштабирование Airflow на Mesos, в чем преимущество?

xkrt 23 окт 2017 в 19:54

MesosExecutor думаю скорее стоит использовать, если уже в проекте есть Mesos, если его нет это скорее всего будет overkill. К тому же MesosExecutor выглядит весьма сырым и его надо сильно дорабатывать, как сделали эти ребята: github.com/astronomerio/incubator-airflow/blob/astronomer-fixes-181/airflow/contrib/executors/mesos_executor.py

gromov-vv 10 окт 2017 в 15:39

Юр, привет! Пара, возможно, тупых вопросов:

1. Если у меня есть Informatica, то мне вот этот тул что-то даст? Помимо более лаконичного репозитория, возможности интеграции с telegram и прочих глобально не очень важных фич?
Возможно, его стоит использовать параллельно для какого-то пула задач со схожими характеристиками?
2. Я правильно понял, что у вас сейчас Airflow — Это основное ETL/ELT средство и других не держите? Во всяком случае у тебя на направлении? Правильно понял, что в принципе у вас стратегия использовать по возможности только опенсёрс?
3. Как с глобальной поддержкой? Были кейсы, которые сами не смогли решить и пришлось к кому-то обращаться? Если да, то к кому обращались?

yuryemeliyanov 10 окт 2017 в 15:55

О, интерпрайзные парни подоспели :) Привет, Вов!

1. Если у тебя информатика и ты плотно на ней сидишь, то не думаю что тебе что-то даст Airflow. Разве что если только поможет открыть глаза на что более светлое ;) Про стоимость конечно глупо говорить. Про скорость разработки и добавления на среду новых процессов, вот про про что нужно говорить. Про кодогенерацию, про сравнительную простоту масштабирования. Про возможность делать кастом операторы стоит говорить.
2. У нас в хранилище для батч уровня да, только Airflow. Есть такая стратегия, сейчас всё хранилище строится на опенсорс.
3. Кейсы ты имеешь ввиду что? Падений? Или требования которые было непонятно как решить на текущей сборке Airflow? Падения были, разрешали сами, + стековерфло, +гитхаб. Требования которае не могли бы решить, тут как мне кажется если задача адекватная, и источник в меру адекватный и алгоритм в меру адекватный, то для airflow проблем не будет, т.к. есть PythonOperator на котором в целом можно решить достаточно заковыристые задачи по получению данных. Ты можешь мне подкинуть задачу, я могу тебе на шагах расписать как это будет реализовано на Airflow.

pecmapm 10 окт 2017 в 15:39

Apache nifi не пробовали для ваших задач? Чем не понравился?

yuryemeliyanov 10 окт 2017 в 16:08

Для батч уровня нет. Для стримминговой части системы (которая сейчас на совсем начальной стадии) можно рассмотреть.

pecmapm 20 окт 2017 в 01:09

Попробовал, понравилось. Спасибо за наводку!

nikola_sa 13 окт 2017 в 07:52

Интересно, сколько времени занимает создание такого количества заданий у команды из 4 человек? Сколько по времени длилась разработка?

yuryemeliyanov 13 окт 2017 в 07:59

Хороший вопрос. Начали в сентябре прошлого года (2016). У нас было пустое хранилище и ноль дагов на среде. Было некое наследие. Наследие мигрировало (с необходимыми переработками) на новую инфраструктуру, это где-то 1/4 текущих процессов, остальное было разработано считай в течение года.

wildraid 17 окт 2017 в 22:06

Интересно. Мы в Badoo сделали очень похожую систему, только на php. Некоторые детали отличаются, но общая картина абсолютно такая же.

Все процессы разделены на цепочки (chains). Внутри одной цепочки задачи выполняются всегда последовательно. Цепочки сами выполняют всегда параллельно, но с учётом зависимостей. Схема просто непобедимая в своей простоте.

Как дела обстоят с логикой повторных попыток в случае ошибки (retry)? Как работает перезагрузка блока старых данных? Например, хотим перезагрузить все логи транзакций за 2016 год и всё, что от них зависит за то же самое время. Удобно ли это сделать?

Как организован devel environment? Можно ли целиком протестировать ETL на своей ветке, используя sample от production данных и не мешая при этом другим разработчикам?

yuryemeliyanov 22 окт 2017 в 16:49

Схема просто непобедимая в своей простоте.

Вот вообще сложно поспорить :)

Как дела обстоят с логикой повторных попыток в случае ошибки (retry)?

Кол-во и интервал ритраев можно настроить на уровне дага, можно переопределить на уровне задачек. Есть параметр оповещать на ритрай, есть на финальный феилд. Достаточно просто и удобно.

Как работает перезагрузка блока старых данных? Например, хотим перезагрузить все логи транзакций за 2016 год и всё, что от них зависит за то же самое время. Удобно ли это сделать?

Если даг построен корректно, т.е. с применением макросов airflow и за определенный день (дату) даг работает с определенными данными, то достаточно просто найти в запусках дага требуемый день и с него почистить статусы задачек в этом дне и в последующих днях (делается это легко). Планировщик обработает эти задачки ещё раз. Так же есть процедура backfill (https://airflow.apache.org/cli.html), можно с помощь неё перезапустить определенный период в даге.

Как организован devel environment? Можно ли целиком протестировать ETL на своей ветке, используя sample от production данных и не мешая при этом другим разработчикам?

Эта часть у нас пока плохо организована. Здесь ещё предстоит много работы. Нашему DWH всего год. Куда двигаться в целом понятно: у каждого разраба свои репы, система пул реквестов, скрипт копирования прод таблиц/данных в песочницу для разработчиков (в рамках одного hadoop кластера).

wildraid 22 окт 2017 в 17:37

Блеск.

Видимо, последний вопрос. Можно ли сделать ожидание на некий внешний источник за пределами Airflow? Например, «появились файлы в HDFS» или «внешний API ответил, что он готов». В теории, можно сделать через retry и долго пытаться, пока не получится. Но ещё лучше совсем в очередь задачу не ставить, пока данные не готовы. Можно ли так сделать?

> Здесь ещё предстоит много работы.

Поделюсь немного информацией о том, какой подход у нас успешно работает. Возможно, какие-то идеи пригодятся.

У каждого разработчика свой отдельный девел на отдельном домене. Конфиги цепочек хранятся в JSON файлах и отслеживаются гитом. Конфиги — не в базе.
База с очередью задач одна на всех, но у каждой таблицы есть колонка «user». Каждый разработчик видит только свою очередь и свои логи. Есть кнопка «Debug reset», которая очищает все данные разработчика и позволяет начать тест с чистого листа.
Колоночная СУБД (Exasol) одна на всех, но есть возможность указать custom prefix для имён схем. Например, обычная схема «FINANCE», а с префиксом будет «VASYA_FINANCE». Такие схемы создаются автоматически на основании DDL из кода. Вместо имён схем в коде везде используются плейсхолдеры. Имена таблиц остаются без изменений. Это позволяет избежать конфликтов DDL и локов, когда сразу несколько человек тестируют что-то одновременно.
При отладке можно указать конкретные цепочки (DAG'и), которые нужно протестировать. Зависимости учитываются автоматически и тоже выполняются. Помогает побыстрее тестировать небольшие изменения и делать code review за разумное время.
На девел загружаются живые данные с production источников, но применяется жёсткий sampling. Вместо миллиарда записей тянем сто записей. Вместо загрузки всех файлов тянем по сто рядов из первых и последних файлов. Всё это позволяет провести некий аналог функционального теста на весь ETL за 20-30 минут.

В идеале, стремимся к полностью изолированным девелам. Насколько это упрощает жизнь — словами не передать.

yuryemeliyanov 23 окт 2017 в 22:22

Видимо, последний вопрос. Можно ли сделать ожидание на некий внешний источник за пределами Airflow? Например, «появились файлы в HDFS» или «внешний API ответил, что он готов». В теории, можно сделать через retry и долго пытаться, пока не получится. Но ещё лучше совсем в очередь задачу не ставить, пока данные не готовы. Можно ли так сделать?

Для таких задач есть отличный набор операторов — sensor-ы. Они как раз про, что бы что-нибудь подождать. Есть и минус, минус в том что сенсоры это такие же задачи airflow, требующие постановки в очередь и свободного слота и воркера. Мы держим сенсоры в отдельном пуле, тем самым контролируем их кол-во и приоритезируем их.

Спасибо за информацию по подходу к организации среды для разработки.

Akson87 21 окт 2017 в 00:39

А как быстро у вас планировщик от одной завершенной задачки к следующей переходит?

yuryemeliyanov 22 окт 2017 в 16:22

Хороший вопрос. Переходы между задачками, их запуск — это не сильная сторона Airflow. Есть много накладных расходов, таких как постановка задачек в очередь, их приоритезиция при запуске, в случае наличия свободного слота в пуле и свободного воркера сельдерея. Планирощик работает постоянно и постоянно пытается толкать задачи, делает он с настраиваемым интервалом (scheduler_heartbeat_sec). У нас при не загруженном сервере, т.е. при наличие свободных слотов в пуле и свободных воркеров сельдерея последующие задачки запускаются в интервале 5-10 секунд.

QtRoS 11 ноя 2020 в 17:32

Изменилось ли что-то по этой части за 3 года? Недавно пробовал Airflow, развернул популярный docker-образ, удивился неповоротливости планировщика — место в пуле было, готовые к старту задачи тоже, но я успевал подождать, зайти в задачу, посмотреть лог, и только потом она запускалась. Как-то странновато.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий