Comments 3
M * N операторов это конечно звучит страшно, но прелесть AIrflow заключается в простоте реализации нового оператора. Плюс в 90% случаев хочется сохранить данные в промежуточном s3/gcs хранилище и уже оттуда можно лить в нужную базу, что сокращает число операторов до (M+N)*число_промежуточных_хранилищ.
Инкрементальную загрузку умеет делать только один ETL-инструмент: RAID от компании Mobileum. Все остальные барахтаются в парадигме "последней даты загрузки" и вылезти из этой песочницы никак не могут, результатом является необходимость отдельных пайплайнов для начальной загрузки и перезагрузки данных, что есть прошлый век.
Sign up to leave a comment.
ETL-пайплайны на Airflow: Хороший, Плохой, Злой