vandriichuk Sep 21 2021 at 15:35

Как сделать платформу по анализу НЕ больших данных — готовая к работе сборка на базе AirFlow + PostgreSQL + MetaBase

3 min

7.2K

Data Engineering*

Tutorial

Comments 5

SLASH_CyberPunk Sep 21 2021 at 15:41

Если бы вы почитали документацию по поводу поднятия airflow в docker для прода, то смогли узнать, как стоит сделать. Выдавать рута контейнеру, когда его специально забрали - это очень не секьюрно и антипаттерн...

Ну и конечно момент "По факту, AirFlow в данной задаче - это уже был лишний инструмент ;-)))" прям совсем звучит странно, качаем руками, права сами правим, сами заливаем, действительно, зачем тут автоматизированный инструмент...

vandriichuk Sep 21 2021 at 15:54

Ради таких комментов и пишу на Хабре - что-то подчерпну для себя нового. Напишите как сделать более правильнее и я с удовольствием поправлю!

SLASH_CyberPunk Sep 21 2021 at 16:03

Я написал, где все можно прочитать

densol92 Sep 28 2021 at 15:42

Одобряю такой сетап. Когда данных станет много можно будет вынести тяжелые файлы в s3/redshift и жить в такой конфигурации до десятков Тб данных.

Советую поменять в Metabase базу на тот же Postgres - иначе после 10-15 дашбордов будет безбожно тормозить. https://www.metabase.com/docs/latest/operations-guide/configuring-application-database.html

P.S. Cейчас бы я выбрал superset - его проще кастомизовать, есть интеграции с Amundsen

vandriichuk Sep 28 2021 at 20:44

Спасибо. Не знал про тормоза при увеличении дашбордов