Как стать автором
Обновить

Комментарии 9

Зачем тащить джангу, если можно использовать Airflow? Его сейчас практически каждый DE знает

Airflow безусловно да. Джанго появился из-за того, что в разрабатываемых мною проектах etl нужно было прикрутить в рамках уже существующего проекта. Как дополнительную функциональность.

Стоп, а где, собственно, вывод, те самые числа, которые должны были выдавать функции из 1 части?

Логируется всё в воркер

Обычно в проде есть какие-то промышленные ETL-инструменты (Talend, Pentaho DI, IBM Datastage и тд и тп). Зачем может понадобиться это поделие, которое как минимум одного питонщика требует на сопровождение? Помимо всего прочего.

Цель данной статьи - показать способ решения задачи на питоне. Что именно использовать: собственную разработку или готовое программное решение - на усмотрение постановщика задачи.

В чём преимущество этого варианта ETL процесса на Python в сравнение к примеру с IBM DataStage?

Я ранее не работал с IBM DataStage. Насколько я понял из описания системы, она предназначена для перекачки данных из БД в БД. Если я ошибаюсь, напишите пож-та. Описанный мною etl процесс я использую для перекачки данных из БД в API-сервисы и наоборот. Причем API сервисы разные и требуют (или отдают) данные как json-формате, так и в xml. Помимо кода выгрузки, загрузки в etl-процессе требуется разработка билдеров и парсеров

Потыкался сейчас в Designer Client IBM DataStage, вроде как можно xml и принимать, и отдавать. С json скорее всего так же. Полагаю, это маст хэв из коробки для любого етл-инструмента. Но я с IBM DataStage тоже вроде как не работаю.

ЗЫ Вчера на учебном курсе в airflow попробовал. На 1 взгляд, комрад@SergeyKlimov_Creator, он в большинстве случаев выгодней твоего решения.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории