Комментарии 7
Какую версию GreenPlum вы используете?
Прикольно. Разместили на гите создание настроечных таблиц, а основного т.е. обслуживающих дагов на питоне нет. Да разместили называется проект и не стыдно.
так как всю логику преобразований можно легко абстрагировать в представлениях.
Спорно. Зачастую в проектах бывает нетривиальная логика, которую только через функции можно реализовать.
Фреймворк интересный, мы написали нечто подобное, правда от ODS дальше отдали на откуп DBT.
По поводу pxf. Как управляете количеством параллельных потоков загрузки из источников, чтобы pxf не сыпался по ресурсам?
Зачастую в проектах бывает нетривиальная логика, которую только через функции можно реализовать.
в проекте миграции с Oracle получилось, что 50% всех процедурных расчетов в Oracle была заменена на логику на view. конечно, много процедур пришлось оборачивать в кастомные функции, но все же не весь объем проекта, что уже радует :)
Как управляете количеством параллельных потоков загрузки из источников, чтобы pxf не сыпался по ресурсам?
При создании внешних таблиц pxf используются pxf-партиции, причем подбираются партиции в зависимости от числа нод кластера - по одному потоку на ноду. также регулируется число параллельных процессов загрузки на уровне дага с помощью настройки в airflow. ну и никто не отменял мониторинг машин, на которых pxf работает
Переходим на Greenplum быстро