gulivan6 фев в 08:39

Кейс команды СберЗдоровья: реализация собственной платформы для Data Vault с использованием dbt-core

Средний

8 мин

5.4K

Блог компании СберЗдоровьеData Engineering * Big Data *

Кейс

Комментарии 2

lazutkinAN 7 фев в 18:57

Приветствую!

На первый взгляд приложение только для удобной генерации одного слоя нормализации (DV), а как собираете другие слои?
Я правильно понимаю, что пока АПИ (объекты) источника не появятся в Datahub, DV не построишь? Сколько времени занимает подключение нового источника в Datahub?
Как решаете задачу проектирования модели данных? - ведь нужно иметь полную картину ERD предметной области чтобы проанализировать и аргументировать выбранное решение, прежде чем начать разработку. Пока видится, что всё это в отрыве (что-то есть в Datahab, что-то в головах ...)
Ну и последнее: код закрыт в опенсорс выкладывать не будете, так?

gulivan 9 фев в 16:36

Здравствуйте =)

Следующие слои (bv, marts) пока действительно собираются больше в ручном режиме, но прорабатываем сейчас идеи, как применить инструмент для дальнейшего этапов моделирования
Да, действительно, у нас Datahub является источником всей правды по метаданным. Инжесты в датахаб у нас частично автоматизированы через Dagster, по набору кредов можно подключить за 5 минут, если фактические доступы уже есть
Здесь не обойтись без концептуальной модели, команды MDM, 100500 литров кофе...

типичныя аналитик из команды МДМ строит концептуальную модель

4. На самом деле есть такое желание, но ещё предстоит обсудить это внутри команды :)

Пока что код достаточно сильно завязан именно под нашу инфраструктуру (например на определенном этапе, мы проверяем CDC таблицы в дочерних элементах через Lineage, чтобы записать их в source_model в dbt), но это тоже преодолимо.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий