Comments / Profile of GTS / Habr

@GTS

User

ProfileArticlesPostsNewsComments3

Переходим на Greenplum быстро

GTS Sep 25 2023 at 05:40

так как всю логику преобразований можно легко абстрагировать в представлениях.

Спорно. Зачастую в проектах бывает нетривиальная логика, которую только через функции можно реализовать.

Фреймворк интересный, мы написали нечто подобное, правда от ODS дальше отдали на откуп DBT.

По поводу pxf. Как управляете количеством параллельных потоков загрузки из источников, чтобы pxf не сыпался по ресурсам?

Как собрать платформу обработки данных «своими руками»?

GTS Jul 29 2022 at 07:20

Спасибо за статью. Есть несколько вопросов:

Какая модель у вас в Greenplum? 3NF, DataVault?
Вы через AirFlow грузите только неструктурированные данные? Почему нет потока структурированных данных в GP напрямую?
Не совсем понял как вы используете NiFi. Правильно ли я понимаю, что он используются для тех источников, которые нельзя подключить к Debezium?
В DataLake у вас какие-нибудь зоны? Или это просто хранение сырых данных?

Хранители данных: как устроена работа с DWH в Lamoda

GTS Jan 13 2022 at 12:32

Я правильно понял, что у вас история копируется и в слой IL? Как вы тогда обрабатываете генерацию суррогатных ключей для кажой версии записи? Например есть две таблицы dim_sku и dim_brand. dim_sku ссылается на dim_brand по суррогатному ключу. Что если приходит новая версия бренда и для неё генерится новый суррогат. Вы в dim_sku перебиваете ссылку на новый бренд или также генерите новую версию с новой ссылкой на бренд?