Comments 5
Если бы вы почитали документацию по поводу поднятия airflow в docker для прода, то смогли узнать, как стоит сделать. Выдавать рута контейнеру, когда его специально забрали - это очень не секьюрно и антипаттерн...
Ну и конечно момент "По факту, AirFlow в данной задаче - это уже был лишний инструмент ;-)))" прям совсем звучит странно, качаем руками, права сами правим, сами заливаем, действительно, зачем тут автоматизированный инструмент...
Одобряю такой сетап. Когда данных станет много можно будет вынести тяжелые файлы в s3/redshift и жить в такой конфигурации до десятков Тб данных.
Советую поменять в Metabase базу на тот же Postgres - иначе после 10-15 дашбордов будет безбожно тормозить. https://www.metabase.com/docs/latest/operations-guide/configuring-application-database.html
P.S. Cейчас бы я выбрал superset - его проще кастомизовать, есть интеграции с Amundsen
Как сделать платформу по анализу НЕ больших данных — готовая к работе сборка на базе AirFlow + PostgreSQL + MetaBase