Pull to refresh

Comments 3

M * N операторов это конечно звучит страшно, но прелесть AIrflow заключается в простоте реализации нового оператора. Плюс в 90% случаев хочется сохранить данные в промежуточном s3/gcs хранилище и уже оттуда можно лить в нужную базу, что сокращает число операторов до (M+N)*число_промежуточных_хранилищ.

Инкрементальную загрузку умеет делать только один ETL-инструмент: RAID от компании Mobileum. Все остальные барахтаются в парадигме "последней даты загрузки" и вылезти из этой песочницы никак не могут, результатом является необходимость отдельных пайплайнов для начальной загрузки и перезагрузки данных, что есть прошлый век.

А как RAID делает инкрементальную загрузку ?
Спасибо

Sign up to leave a comment.

Articles