Search
Write a publication
Pull to refresh
0
0

User

Send message

так как всю логику преобразований можно легко абстрагировать в представлениях.

Спорно. Зачастую в проектах бывает нетривиальная логика, которую только через функции можно реализовать.

Фреймворк интересный, мы написали нечто подобное, правда от ODS дальше отдали на откуп DBT.

По поводу pxf. Как управляете количеством параллельных потоков загрузки из источников, чтобы pxf не сыпался по ресурсам?

Спасибо за статью. Есть несколько вопросов:

  1. Какая модель у вас в Greenplum? 3NF, DataVault?

  2. Вы через AirFlow грузите только неструктурированные данные? Почему нет потока структурированных данных в GP напрямую?

  3. Не совсем понял как вы используете NiFi. Правильно ли я понимаю, что он используются для тех источников, которые нельзя подключить к Debezium?

  4. В DataLake у вас какие-нибудь зоны? Или это просто хранение сырых данных?

Я правильно понял, что у вас история копируется и в слой IL? Как вы тогда обрабатываете генерацию суррогатных ключей для кажой версии записи? Например есть две таблицы dim_sku и dim_brand. dim_sku ссылается на dim_brand по суррогатному ключу. Что если приходит новая версия бренда и для неё генерится новый суррогат. Вы в dim_sku перебиваете ссылку на новый бренд или также генерите новую версию с новой ссылкой на бренд?

Information

Rating
Does not participate
Registered
Activity