При выборе архитектуры данных важно понимать, что каждый подход имеет свои достоинства и недостатки. Data Warehouse предлагает более структурированный подход, ориентированный на отчетность, в то время как Data Lake обеспечивает гибкость и возможности для анализа «больших данных». Data Lakehouse устраняет разрыв между этими двумя архитектурами, а Data Mesh предлагает более гибкую и децентрализованную модель управления данными. Выбор правильного подхода должен основываться на потребностях проекта и долгосрочных целях.
Для нашего проекта лучше всего подойдет архитектура Data Warehouse, так как она позволит эффективно работать со структурированными данными для оперативной подготовки отчетов и проведения бизнес‑аналитики. Каждый проект имеет свои уникальные требования, поэтому выбор правильного подхода является ключевым фактором для создания успешной стратегии управления данными.
Выбор правильного подхода
В рамках нашего проекта был выбран наиболее оптимальный подход — Data Warehouse. Data Warehouse идеально подходит для проектов, требующих работы со структурированными данными и ориентированных на отчетность и бизнес‑аналитику. Однако следует отметить, что и другие подходы, такие как Data Lake, Data Lakehous, и Data Mesh, также могут оказаться полезными для конкретных проектов.
Каждый из этих подходов обладает своими уникальными преимуществами и недостатками. Например:
Data Warehouse предоставляет широкие возможности создания отчетов и анализа, но может работать только со структурированными данными.
Data Lake обеспечивает гибкость и поддержку разнообразных типов данных, но может вызывать сложности в управлении.
Data Lakehouse объединяет преимущества обоих подходов, обеспечивая гибкость и высокую производительность.
Data Mesh представляет собой распределенную архитектуру, но необходимо уделять внимание проблемам интеграции и согласованности.
В соответствии с требованиями проекта, мы выбрали подход, основанный на концепции Data Warehouse. Однако, чтобы определить наиболее подходящий подход для любого проекта обработки данных, необходимо учесть множество факторов, включая тип данных, аналитические потребности и варианты использования.
Архитектура “медальон”: современный подход к структуре Data Warehouse
Различные подходы к проектированию Data Warehouse существенно влияют на гибкость, производительность и эффективность системы. В этой части мы подробно рассмотрим такие популярные вариации, как подход Инмона, Кимбалла, Data Vault и «медальон», а затем подробнее остановимся на последней архитектуре.

Подход Инмона: проектирование централизованного хранилища данных
Подход Билла Инмона один из самых первых и известных подходов к разработке хранилищ данных. В соответствии с этим подходом, Data Warehouse проектируется как корпоративное хранилище данных (Enterprise Data Warehouse — EDW), где все данные хранятся в одном централизованном месте. Все данные проходят процесс нормализации и загружаются в систему хранилища в соответствии с расширенной моделью данных.
Особенности:
Данные обычно хранятся в третьей нормальной форме (3NF).
Этот подход обеспечивает централизованное хранилище данных для всей организации.
Процесс интеграции данных может быть сложным, но он гарантирует высокий уровень точности данных.
Преимущества:
Данные непротиворечивы и хорошо организованы.
Эффективна в крупномасштабных проектах и при интеграции данных в масштабах предприятия.
Недостатки:
Процесс разработки может быть медленным, так как все данные должны быть реструктурированы с нуля.
Моделирование данных может быть сложным и трудоемким.
Подход Кимбалла: удобное хранилище данных
В отличие от Инмона, подход Ральфа Кимбалла отличается удобством и гибкостью. Согласно его методологии, Data Warehouse состоит из небольших, специализированных разделов, известных как витрины данных (data marts). Эти данные организованы в соответствии с простейшими схемам, таким как звезда и снежинка.

Особенности:
Данные обычно подвергаются денормализации и оптимизируются для упрощения запросов.
Каждая витрина данных служит конкретным отчетным и аналитическим целям для конкретной области бизнеса.
Преимущества:
Быстрый доступ и оперативное выполнение запросов.
Оптимальный выбор для небольших проектов или специфических аналитических потребностей.
Недостатки:
Денормализованные данные могут привести к избыточности данных в больших наборах.
Управление согласованностью данных становится более сложным.
Data Vault: гибкая и модульная модель данных
Подход Data Vault стал новым словом в проектировании этих систем, предлагая гибкость и модульность. При таком подходе данные хранятся в необработанном виде, а затем обрабатываются на основе определенных бизнес‑правил. Data Vault часто выбирают для крупных и сложных проектов обработки данных.
Особенности:
Обеспечивает быструю адаптацию и гибкость.
Точность данных и бизнес‑правила разделены на отдельные уровни.
Данные делятся на три основных компонента: Hub, Link, и Satellite.
Преимущества:
Быстрая интеграция с различными источниками данных.
Легко адаптируется к меняющимся требованиям бизнеса.
Недостатки:
Сложная модель данных может затруднить управление.
Может потребовать более высоких затрат на обработку.
Архитектура “медальон”: современный упрощенный дизайн Data Warehouse
Медальонная (Medallion) архитектура — это один из самых последних подходов к проектированию современных Data Warehouse. Эта структура разделяет процесс обработки данных на три ключевых слоя: бронзовый (необработанные данные), серебряный (очищенные данные) и золотой (данные, соответствующие бизнес‑правилам).
Слои медальонной архитектуры
Бронзовый слой (необработанные данные):
Здесь хранятся необработанные данные в их первоначальном виде. На этом этапе никакие преобразования не осуществляются. Цель заключается в том, чтобы сохранить данные в том виде, в каком они были получены. Дата‑инженеры используют этот уровень для выявления и устранения ошибок, а также для отслеживания источников данных и изменений.Серебряный слой (очищенные данные):
В рамках серебряного слоя необработанные данные проходят процесс очищения, нормализации и упорядочивания. Этот слой служит основой для преобразования и очистки информации, подготавливая ее к последующему анализу. Любые ошибки и пробелы в данных устраняются, что способствует улучшению их согласованности.Золотой слой (данные, соответствующие бизнес‑правилам):
На золотом слое происходит подготовка данных для бизнес‑аналитики, отчетности и анализа с использованием бизнес‑правил. Здесь осуществляется моделирование и анализ данных в зависимости от потребностей бизнес‑пользователей. Данные подготавливаются для инструментов бизнес‑аналитики, таких как Power BI и Tableau, и оптимизируются для процессов отчетности.
Требования к каждому слою
На приведенном ниже рисунке наглядно проиллюстрированы требования к каждому слою. Например, бронзовый слой, который уже выполнил свои задачи, сохраняет данные в виде отдельного файла, и дальнейшая обработка не выполняется. Затем, в серебряном слое, выполняются преобразования, также сохраняя результаты в отдельном файле. На этом этапе данные проходят дополнительную проверку и уточнение. Каждый слой отвечает за выполнение своей собственной группы задач. Наконец, на золотом слое данные готовы для моделирования и задач бизнес‑аналитики.


Преимущества медальонной архитектуры
Простота и понятность: Структура медальонной архитектуры легко воспринимается, так как не содержит сложных моделей данных. Каждый слой имеет свое собственное назначение и функции, что делает процесс обработки данных интуитивно понятным.
Отслеживаемость: Благодаря отслеживанию каждого этапа обработки данных, любые проблемы с данными могут быть быстро выявлены и решены.
Гибкость и производительность: Эта архитектура отличается гибкостью и высокой производительностью и позволяет эффективно обрабатывать и запрашивать данные. Более того, поскольку каждый этап может обрабатываться независимо, управление данными становится более адаптируемым.
Применение медальонной архитектуры
Big Data проекты: Эта архитектура идеально подходит для проектов, где собираются и обрабатываются большие объемы данных. Она позволяет эффективно управлять и анализировать эти данные, что особенно важно для крупномасштабных проектов.
Расширенная аналитика и машинное обучение: Расширенный анализ необработанных данных в бронзовом и серебряном слоях дополняется данными, подготовленными для составления отчетов и анализа в золотом слое.
Решения Data Warehouse и бизнес‑аналитика: Медальонная архитектура хорошо зарекомендовала себя как для реализации Data Warehouse, так и для проектов бизнес‑аналитики, обеспечивая эффективную обработку и анализ больших объемов данных.
Эта архитектура представляет собой чрезвычайно гибкий и эффективный подход к проектированию современных Data Warehouse. Эта модель предлагает множество преимуществ как для дата‑инженеров, так и для бизнес‑аналитиков, обеспечивая ясность и отслеживаемость на каждом этапе обработки данных. Архитектура «медальон» особенно подходит для проектов, требующих расширенной аналитики и отчетности.
Визуализация архитектуры Data Warehouse
Архитектура Data Warehouse часто включает в себя сложные структуры, которые сложно объяснить с помощью одного лишь текста. Именно поэтому создание визуального представления имеет решающее значение для облегчения понимания и реализации проектов хранилищ данных. Визуальные диаграммы помогают наглядно продемонстрировать сложные потоки данных и системные структуры, гарантируя, что все заинтересованные стороны смогут полностью понять суть проекта.
Ключевые элементы на схеме архитектуры Data Warehouse
При визуализации архитектуры Data Warehouse важно уделить внимание нескольким ключевым аспектам:
Источники данных
На схемах источники данных обычно изображаются в виде прямоугольника, соединенного стрелками, которые указывают на хранилище данных. Эти источники могут быть представлены в различных форматах, включая:
Базы данных
CSV‑файлы
API
Веб‑сервисы
Визуализация этих источников представляет собой первый шаг в понимании потока данных проекта.
2. ETL‑процессы (извлечение, преобразование, загрузка)
Процессы извлечения данных из источника, их преобразования и загрузки в хранилище данных известны как ETL (Extract, Transform, Load).
Этапы — Извлечение (сбор данных), Преобразование (обработка данных) и Загрузка (загрузка данных в хранилище) — часто изображаются на диаграмме последовательными стрелками.
Каждый из этих этапов представляет собой отдельную фазу в потоке данных и должен быть четко выделен на диаграмме.
3. Хранилище данных
Хранилище данных обычно изображается как централизованная структура, где все данные собраны и подготовлены к анализу. Обработанные данные хранятся здесь и затем передаются в процессы отчетности.
4. Слои
Если используется подход, подобный медальонной архитектуре, на схеме должны быть четко обозначены различные слои (бронза, серебро, золото). Каждый слой визуально представлен меткой, которая описывает степень обработки данных и их предполагаемое назначение.
5. Бизнес‑аналитика и отчетность
Инструменты бизнес‑аналитики и платформы отчетности, на которых данные представляются конечным пользователям, также должны быть включены в диаграмму. Эти инструменты представляют собой заключительный этап анализа и интерпретации данных.
Организуя компоненты хранилища данных в виде этих визуальных элементов, все заинтересованные стороны проекта могут легче понять структуру, потоки и процессы, задействованные в архитектуре Data Warehouse.

Визуализированная схема Data Warehouse
Ниже представлена примерная диаграмма, наглядно демонстрирующая, как можно представить архитектуру Data Warehouse:
Источники данных (такие как ERP, CRM‑системы) обеспечивают поток данных в хранилище.
ETL‑процессы отображают, как данные передаются из источников в хранилище.
Слои и инструменты бизнес‑аналитики иллюстрируют, как информация обрабатывается и предоставляется пользователям.

Использование визуальных диаграмм в процессе проектирования хранилищ данных — это эффективный способ сделать более понятными сложные потоки данных и системные структуры. Четкая визуализация этих потоков, слоев и инструментов бизнес‑аналитики помогает всем участникам проекта лучше понять процесс. Эти диаграммы служат ориентиром на протяжении всего проекта, направляя каждый его этап, что гарантирует успешное завершение реализации хранилища данных.
Заключение
Выбор архитектуры данных — это не только техническое, но и стратегическое и организационное решение. В этой статье мы подробно рассмотрели различные архитектурные подходы, такие как Data Warehouse, Data Lake, Data Lakehouse и Data Mesh. Мы объяснили, в каких случаях каждый из них лучше всего подходит, их преимущества, проблемы и платформы, которые можно использовать для их реализации. Также мы привели примеры, которые помогут лучше понять эти подходы. Кроме того, мы рассмотрели этапы, которые необходимо пройти при выборе архитектуры данных. Эти этапы включают анализ требований, определение источников данных и ETL‑процессов, моделирование и документацию. Мы рассмотрели их на примере проекта, который демонстрирует, как современные архитектуры, такие как «медальон», могут быть успешно применены в разработке данных. В заключение, выбор правильной архитектуры данных должен осуществляться в соответствии с типом данных, аналитическими потребностями, организационной структурой и долгосрочными целями. Таким образом, компании не только обрабатывают данные, но и разрабатывают гибкие, стабильные и надежные системы, которые позволяют извлекать из них ценные сведения.
Материал подготовлен в рамках специализации OTUS «Системный аналитик». На этом курсе вы можете с нуля погрузиться в процессы разработки ПО и научиться формировать технические требования, учитывая цели бизнеса.
А если вы уже работаете с архитектурой данных или вовлечены в системный анализ, обратите внимание на эти открытые уроки — в них поднимаются практические вопросы, напрямую связанные с темами статьи:
5 июня, 20:00
Компетенции системного аналитика в 2025 году
Что изменилось в профессии, какие навыки выходят на первый план и как аналитик влияет на архитектуру данных и процессов.9 июня, 20:00
Как системному аналитику не допустить Spaghetti Code и других проблем в архитектуре
О методах работы, которые помогают сохранить целостность архитектуры на стыке требований и реализации.