Обновить

Кейс команды СберЗдоровья: реализация собственной платформы для Data Vault с использованием dbt-core

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.4K
Всего голосов 3: ↑3 и ↓0+5
Комментарии2

Комментарии 2

Приветствую!

  1. На первый взгляд приложение только для удобной генерации одного слоя нормализации (DV), а как собираете другие слои?

  2. Я правильно понимаю, что пока АПИ (объекты) источника не появятся в Datahub, DV не построишь? Сколько времени занимает подключение нового источника в Datahub?

  3. Как решаете задачу проектирования модели данных? - ведь нужно иметь полную картину ERD предметной области чтобы проанализировать и аргументировать выбранное решение, прежде чем начать разработку. Пока видится, что всё это в отрыве (что-то есть в Datahab, что-то в головах ...)

  4. Ну и последнее: код закрыт в опенсорс выкладывать не будете, так?

Здравствуйте =)

  1. Следующие слои (bv, marts) пока действительно собираются больше в ручном режиме, но прорабатываем сейчас идеи, как применить инструмент для дальнейшего этапов моделирования

  2. Да, действительно, у нас Datahub является источником всей правды по метаданным. Инжесты в датахаб у нас частично автоматизированы через Dagster, по набору кредов можно подключить за 5 минут, если фактические доступы уже есть

  3. Здесь не обойтись без концептуальной модели, команды MDM, 100500 литров кофе...

типичныя аналитик из команды МДМ строит концептуальную модель
типичныя аналитик из команды МДМ строит концептуальную модель


4. На самом деле есть такое желание, но ещё предстоит обсудить это внутри команды :)

Пока что код достаточно сильно завязан именно под нашу инфраструктуру (например на определенном этапе, мы проверяем CDC таблицы в дочерних элементах через Lineage, чтобы записать их в source_model в dbt), но это тоже преодолимо.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
sberhealth.ru
Дата регистрации
Дата основания
Численность
1 001–5 000 человек
Местоположение
Россия
Представитель
kosarskaya