Comments 4
Благодарю, неплохой краткий обзор основных подходов к работе с данными
Не понимаю эти шарады вокруг ETL и ELT. Что это чуть ли не единственная разница между озером и просто хранилищем. И озеро без трансформации надо было болотом назвать.
Концепции... Придумали же они там. Заменить у машины одну деталь и сказать что она теперь самолёт.
Здравствуйте не совсем с вами согласен. В целом, я тоже считал, что разница в изменении последовательности букв, но по факту это прям изменение парадигмы. ETL это больше про минимизацию хранения, грубо говоря, на уровне загрузки мы строим сложные SQL запросы и делаем уже предподготовленную витрину в стейджинг слое, потом грузим дальше в витринные слои, а стейджинг чаще всего чистится (возможно хранится несколько загрузок, для мониторинга). ELT это когда мы, в основном делаем слепок исходной системы и потом уже делаем преобразования внутри хранилища. Да это намного больше места, для хранения, но это позволяет иметь полноценное сырое хранилище транзакционных данных. Мы начали переходить на ELT только после того, как в бизнесе появились люди способные нормально работать с сырыми данными, а не только с готовыми витринами. Только для ИТ такое, по моему мнению, избыточно.
ODI от оракла тоже ELT, им прекрасно грузят и трансформиркют данные на стрроне целевой БД а DWH.
Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями