Comments 3
Делал на похожем стеке pet -project, только вместо superset был metabase, для экономии места на VPS. В итоге столкнулся с двумя моментами. 1. Периодически нужно чистить логи от airflow, т.к шедулер быстро накапливает мусор. 2. Почему-то оператор отвечающий за парсинг перестал работать на VPS спустя недедю, хотя использую замену заголовков как и при запуске просто с ноута( без проксирования). В целом очень рабочий стек!
Привет, вспомнил креды от ака что бы написать ответ.
Мы в компании развернули Airbyte который льет в Clickhouse подключенный к Metabase. До этого пользовались Metabase подключенным к главной Постгрес БД и были счастливы. Но захотели все в одном ДатаВарехус.
С чем столкнулись - Метабейс не режет JSON который лежит в столбце Clickhouse на отдельные столбцы, в отличие от Постгрес БД.
В Аербайт же Т (трансформ) - платная фича. Очень дорогая. У них он Мапинг называется.
Т.е. ни резать Json ни изменять типы поля я там не могу.
У нас компания не ИТ, выделенных датааналитиков нет, делаю методом тыка все.
В итоге сейчас имеем собранную в кликхаус информацию со всех усюд, но использовать ее в метабейсе корректно не можем.
Посоветуйте куды бы вы копали на моем месте?
Спасибо.
Основы ETL на примере работы с Superset, Airflow и ClickHouse