Строим машину времени для данных (SCD-2) на движке Trino под управлением Airflow

Сегодня SCD-2-таблицы не только остаются актуальными для медленно меняющихся данных, но и, на мой взгляд, становятся гораздо проще в реализации благодаря новым технологиям и инструментам.
Мне поручили пересобрать витрину в ходе миграции в наше новое хранилище данных. Итак, в этой статье мы будем:
— строить Iceberg-таблицы SCD-2 с помощью Trino, SQL и Python;
— попутно освоим прекрасные функции merge, MD5 и другие полезные инструменты;
— напишем свой собственный оператор для Airflow для автоматизации ETL-процесса.



















