Data Warehouse: сравниваем подходы к хранению данных

На примере Data Warehouse рассказываем о подходах к хранению корпоративных данных и сравниваем альтернативные решения. Data Warehouse (DWH) — это централизованное корпоративное хранилище данных, в котором собирается, обрабатывается и хранится информация из разных источников. Его цель — предоставить единую и структурированную базу данных для анализа и принятия решений. В основе DWH лежит концепция предметно-ориентированной базы данных.
Чем Data Warehouse отличается от баз данных, Data Lake и Data Mart:
базы данных хорошо справляются с транзакциями, заточены под быстрые действия и работают с текущими, постоянно изменяющимися данными;
Data Lake — это хранилище, куда можно складывать данные «как есть»: структурированные, полуструктурированные и неструктурированные. Например, логи, изображения, JSON-файлы и многое другое;
Data Warehouse (DWH) — это усиленный уровень, предназначенный для аналитики. Данные сюда попадают после подготовки: проходят через процессы очистки, нормализации, трансформации и объединения;
Data Mart — «мини-DWH» для конкретной задачи. Этот инструмент обычно проще и меньше по объему, но может обновляться чаще и работать с более узкой, оперативной аналитикой.
На старте проектирования архитектуры важно разобраться в разнице между разными типами хранилищ — у каждого своя специфика и уровень зрелости. Подробнее о Data Warehouse и подходах к построению DWH читайте в базе знаний Облака Рег.ру.