Yandex Cloud заявила о запуске управляемого сервиса в облаке на базе open source технологии Apache Airflow. Сервис объединяет все этапы работы с данными на платформе в единый процесс. По словам разработчиков, дата‑инженеры и ML‑специалисты смогут гибко управлять различными операциями по обработке данных в облаке, например, перемещать их по уровням в хранилище данных, собирать и преобразовывать витрины данных для аналитики и не только. Это позволит компаниям быстрее создавать дата‑проекты в облаке — от корпоративных хранилищ данных до рекомендательных систем. Об этом информационной службе Хабра рассказали в пресс‑службе облачной платформы.
Airflow была разработана в 2014 году в компании Airbnb. В марте 2016 года стал проектом Apache Incubator, а в январе 2019 года превратилась в проект верхнего уровня Apache Software Foundation. Технология остаётся популярным open source решением для оркестрации данных. Airflow использует язык Python для описания логики выполняемых операций с данными, что позволяет упростить разработку и тестирование с её помощью.
В облака Yandex Cloud технология Apache Airflow интегрирована с объектным хранилищем, управляемыми СУБД, BI‑инструментами, сервисами машинного обучения облачной платформы. Apache Airflow работает с сервисом для обработки массивов данных Yandex Data Proc. Доставка секретов в Apache Airflow организована через Yandex Lockbox, это позволяет упростить и сделать процесс управления данными надёжным и безопасным.
Облачный провайдер заявил, что берёт большую часть задач по развёртыванию и поддержке технологии на себя. Специалистам будет проще организовать процесс обработки данных с помощью Airflow. Кроме этого, предоставление технологии в виде управляемого сервиса сократит вероятность отказов и сбоев при использовании технологии. Apache Airflow предоставляется бесплатно на этапе Public Preview и уже доступен по запросу для пользователей платформы.