dedmazdie 18 ноя 2024 в 14:09

И снова о dbt…

Средний

5 мин

3.2K

Блог компании БФТ-ХолдингХранилища данных*Data Engineering*

Обзор

Комментарии 2

madiken 12 дек 2024 в 06:36

Добрый день, делаем схожее решение и столкнулись со следующими проблемами:

Во-первых dbt-модели, как дерево, и выполняются единым проектом. Сейчас боремся, чтоб по мере поступления данных их запускать. И при этом смотреть, что все запущенные ветки отработали до конца, прежде чем они по следующей партии изменений запустятся.

Делали ли вы что-то подобное или просто запускаете весь проект но по расписанию?

Второе - широкие витрины для сервисов. ГП не предназначен для сервисов по кол-ву пользователей- обращений от сервисов.

Как решали этот вопрос? За счёт дополнительного использования in-memory базы или иное?

dedmazdie 13 дек 2024 в 10:55

Добрый день!

В статье я пытался показать, что мы выполняем не весь проект dbt целиком, а нужную в данный момент часть - это происходит за счет того, каждый домен имеет свой код трансформации, по которому даг airflow определяет, какие модели нужно выполнить (например, какой-то конкретный тег или директорию проекта).
Я не понял вопрос, сформулируйте, пожалуйста, иначе. Особенно интересно, откуда мнение "...ГП не предназначен для сервисов по кол-ву пользователей- обращений от сервисов " и что под этим подразумевается?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий