Комментарии 9
Зачем тащить джангу, если можно использовать Airflow? Его сейчас практически каждый DE знает
Стоп, а где, собственно, вывод, те самые числа, которые должны были выдавать функции из 1 части?
Обычно в проде есть какие-то промышленные ETL-инструменты (Talend, Pentaho DI, IBM Datastage и тд и тп). Зачем может понадобиться это поделие, которое как минимум одного питонщика требует на сопровождение? Помимо всего прочего.
В чём преимущество этого варианта ETL процесса на Python в сравнение к примеру с IBM DataStage?
Я ранее не работал с IBM DataStage. Насколько я понял из описания системы, она предназначена для перекачки данных из БД в БД. Если я ошибаюсь, напишите пож-та. Описанный мною etl процесс я использую для перекачки данных из БД в API-сервисы и наоборот. Причем API сервисы разные и требуют (или отдают) данные как json-формате, так и в xml. Помимо кода выгрузки, загрузки в etl-процессе требуется разработка билдеров и парсеров
Потыкался сейчас в Designer Client IBM DataStage, вроде как можно xml и принимать, и отдавать. С json скорее всего так же. Полагаю, это маст хэв из коробки для любого етл-инструмента. Но я с IBM DataStage тоже вроде как не работаю.
ЗЫ Вчера на учебном курсе в airflow попробовал. На 1 взгляд, комрад@SergeyKlimov_Creator, он в большинстве случаев выгодней твоего решения.
Пишем ETL-процесс на Python, часть 2