
Комментарии 5
Сейчас на hh по Dagster 26 вакансий за месяц, по Airflow – 517, что почти в 20 раз больше. Как считаете, есть ли смысл изучать Dagster, если есть желание вкатиться в дата-инженерию? Из статьи я понял что с Airflow дорога в крупняк, а через Dagster в стартап. Что посоветуете, есть ли шанс найти работу, если опыт только в веб-бекенде?
Дагстер это оркестратор нового поколения, который позволяет вместо написания DAG строить пайплайны из ассетов. Плюс с ним проще работать, поэтому его и выбирают часто для новых проектов.
Кстати, в Airflow 3.0 тоже появились ассеты, как в дагстере, так что они сблизились.
Я думаю, нет большой разницы, с чего начать изучение, потому что для работодателя важно, чтобы человек понимал подходы и умел строить пайплайны. А особенности конкретного инструмента быстро осваиваются.
Изучайте Apch ni-fi, для потоковой обработки. А легче всего apache hop или pdi. Инструменты проще и мощнее airflow. Если знаете питон, можете для них свои плагины написать, если стандартных не хватит
С опытом веб-бэкенда у вас уже есть навыки, которых часто не хватает джунам в дата-инженерии: Python, понимание API, работы с БД, навыки проектирования и деплоя сервисов. Обычно у начинающих data-инженеров проблемное место как раз кодинг.
Начать изучение лучше с Airflow, так как он чаще встречается в вакансиях, а концепты DAG’ов, задач, сенсоров, операторов потом легко переложить на Dagster. Знание Airflow - стандарт в крупных компаниях и интеграционных проектах (DWH, BI, ETL), можно сказать, базовый must-have, который заметят сразу. Он проверенный, вокруг него большая экосистема и представлено много документации. Dagster же более современный развивающийся инструмент, ориентирован на удобство разработки, тестирование пайплайнов, сильнее интегрирован в CI/CD-подходы.
Помимо оркестраторов, стоит освоить основы моделирования данных, ETL/ELT, SQL, dbt.
Dagster или Airflow: что выбрать для оркестрации в DWH-проектах?