Comments 4
Очень актуален и раздел про мониторинг — часто в статьях про DWH этому аспекту уделяется недостаточно внимания, хотя это критичная часть работы с данными.
Эх, средний уровень статей падает и падает... Автор - джуниор проджект менеджер после курса "войти в ИТ"?
Для чего вообще DWH?
Тема не раскрыта. Вообще. Общие слова про необходимость использования данных. Почему для всего именно этого нужно DWH? Все описанное реализуется и без DWH.
БД для DWH
Когда Hadoop успел стать БД?
ETL для DWH
Airflow - это про оркестарцию, а не про ETL. Про ETL в разделе вообще считай ничего нет, кроме как упоминание оператора PostgreSql для Airflow (при этом в разделе выше говорится что "вряд ли условный PostgresSQL сможет справиться со всей нагрузкой")
Мониторинг DWH
Аналогично, писал раздел тот, кто не понимает реальные потребности мониторинга DWH. Алертинг в ДАГах Airflow? Grafana? Автор думает что это покрывает реальные задачи мониторинга DWH?
Какие у вас объемы данных через эйрфлоу идут? Слышал, что как у етл там так себе производительность уже на сотнях тысячах записей, что для кхд вообще ни о чем. Чисто оркестратор
Вопрос не имеет смысла. Эйрфлоу - это оркестратор. При правильном его использованием через него данные не идут вообще. А если через Экзекьютор Эйрфлоу у вас реально идут данные, то того, кто так реализовал загрузку, надо уволить за профнепригодность.
ПыСы а ещё задавать его не имеет смысла, так как очевидно, что автор статьи не понимает тему, о которой пишет :-)
Что такое DWH?