Построение корпоративного хранилища данных последнее время становится не роскошью, а необходимостью. Современные информационные системы, которые использует бизнес, генерируют огромное количество данных, и оно с каждым годом только возрастает.
DWH помогает собрать, структурировать и сохранить все имеющиеся в компании данные в единую версию правды, чтобы вывести бизнес-аналитику на новый уровень и получить преимущество в принятии решений.
В случае успешного внедрения проекты DWH открывают компаниям новые возможности и приносят прибыль, однако, процент неудачных внедрений также довольно велик.
Ошибки возникают не только в результате того, что первоначально не были учтены возможные изменения в бизнес-процессах, потребностях и целях компании, но и из-за некорректного выбора стека технологий и СУБД.
Порядок хранения данных выбирается в соответствии с разными сценариями работы - запросами, разным объемом данных, количеством транзакций, необходимостью обновлений данных.
Что такое СУБД Greenplum
Greenplum – массово-параллельная реляционная СУБД на основе PostgreSQL, которая подходит для хранения и обработки больших объемов данных (до сотен ТБ).
Массово-параллельные СУБД обычно используются для предиктивной аналитики, отчетности по большим объемам данных, построения озер данных и корпоративных хранилищ данных, разработки аналитических моделей по множеству разнообразных данных.
Массово-параллельная архитектура (Massive Parallel Processing, MPP) характеризуется физическим разделением памяти узлов (нод), объединенных в кластер. СУБД Greenplum — это несколько БД PostgreSQL, объединенных в кластер, где каждый узел кластера имеет собственную память, ОС и жесткие диски. Для пользователей же предоставляется унифицированный интерфейс базы данных.
Кластер Greenplum включает следующие компоненты:
Мастер (Master host) — узел, на котором размещен главный экземпляр PostgreSQL. Мастер содержит метаданные и не содержит пользовательских данных. В Мастер поступают SQL-запросы и, он отвечает за установление соединения с клиентом.
Резервный мастер (Secondary master instance) — инстанс PostgreSQL, который включается при отказе основного мастера. Некоторые кластеры Greenplum используют резервный мастер в качестве сервера ETL.
Сервер-сегменты (Segment host) – узлы, где хранятся пользовательские данные и выполняются операции из обработки. Каждый сервер-сегмент содержит от 1 до 8 сегментов Greenplum – независимых экземпляров PostgreSQL с частью данных.
Сегменты в СУБД объединяются по принципу «без разделения ресурсов» (Shared Nothing), то есть без использования общих устройств и памяти.
Сегменты делятся на основные и зеркала. Primary-сегмент обрабатывает данные и передает результаты мастеру. Ему соответствует зеркало (Mirror segment instance), которое хранит копию данных из основного сегмента и включается в работу при отказе Primary.
Предположим, у вас есть коробка с 1200 перемешанными визитками сотрудников из разных компаний. Ваша задача - перебрать все карточки и найти имена всех, кто работает в ООО Ромашка. Если просматривать одну визитку в секунду, вам потребуется 20 минут, чтобы найти всех сотрудников Ромашки.
А теперь разложим их на 10 равных стопок по 120 визиток и пригласим 10 человек перебрать их в поисках нужных. Если бы они одновременно просматривали визитки, каждый в своей стопке, со скоростью 1 визитка в секунду, то нужные нам визитки были бы найдены примерно за 2 минуты. Скорость обработки повысилась бы в 10 раз.
По такому же принципу работает и архитектура Greenplum:
Пользователь подключается к БД через API-интерфейсы (JDBC и ODBC).
Мастер аутентифицирует соединение и обрабатывает входящий SQL-запрос. Запрос оптимизируется и разбивается на более мелкие компоненты, которые отправляются в сервер-сегменты - другие экземпляры базы данных PostgreSQL, где обрабатываются для получения окончательных результатов.
Сегменты выполняют вычисления и возвращают результаты обработки в Мастер, который координирует эти результаты и представляет конечный итог клиенту.
За взаимодействие между сегментами отвечают интерконнекты – быстрые обособленные сетевые соединения уровня Gigabit Ethernet.
Распределение данных порциями по всем нодам кластера в MPP-СУБД позволяет повысить скорость их обработки и снизить нагрузку на хранилище данных.
Кому подойдет СУБД Greenplum
Большие хранилища данных
Классические СУБД справляются с оперативными транзакциями и подходят для быстрого построения отчетов.
Но при увеличении объемов данных, DWH на стандартных СУБД исчерпывают свою мощность и не способны обеспечивать должную производительность. Загрузка данных с трудом укладывается в отведенные временные интервалы.
Массово-параллельная архитектура Greenplum и мощные алгоритмы оптимизации подходят для быстрой обработки «тяжёлых» аналитических запросов при работе с многотерабайтными массивами данных.
СУБД поддерживает реляционную модель данных и совместима с PostgreSQL, а значит, и со всеми BI-системами и ETL-инструментами.
СУБД подойдет для хранилищ больше 1ТБ, так как именно на таких объемах продемонстрирует оптимальное соотношение стоимости владения и производительности.
Имеет следующие ограничения:
Максимальное количество таблиц — более 4 млрд
Максимальный размер одной таблицы — до 128 Тб на один сегмент
Максимальное число строк в одной таблице — более 281 триллиона
Максимальный размер строки — 1 Гб
Максимальное количество столбцов в таблице — 1600
Масштабирование
DWH, реализованные на Greenplum, обычно используются для компаний, где присутствует большое количество источников данных, их объемы постоянно растут, и необходим увеличенный срок их хранения.
Чтобы обработать растущие объемы данных, объединить несколько хранилищ или поддерживать новые аналитические приложения, необходимо увеличивать емкость имеющейся СУБД.
Greenplum дает возможность легко добавлять новые серверы и сегменты без ограничений в количестве, так как даже при выходе из строя узла кластера, другие узлы справятся с ростом нагрузки. Чем больше новых узлов добавлено, тем быстрее работает Greenplum.
Сохранность и точность данных
Greenplum обеспечивает отказоустойчивость благодаря наличию резервного мастера и зеркал для каждого сегмента.
СУБД полностью соответствует принципам ACID - Atomicity, Consistency, Isolation, Durability - набору принципов, которые определяют, как должна работать транзакция в СУБД.
Атомарность (Atomicity) - транзакция должна быть неделимой, либо все операции в транзакции выполняются успешно, либо ни одна из них не выполняется.
Согласованность (Consistency) - после выполнения транзакции база данных должна находиться в согласованном состоянии: все правила и ограничения, установленные для базы данных, должны быть соблюдены.
Изолированность (Isolation) - каждая транзакция должна выполняться независимо от других транзакций.
Надежность (Durability) - результаты успешно выполненной транзакции должны быть сохранены и не могут быть отменены.
Одни и те же таблицы в Greenlum могут быть использованы для записи и чтения, без страха потерять данные.
СУБД подойдет для реализации операций, в которых важна точность и структурность данных, например, для финансовых операций.
Предиктивная аналитика
В банках, здравоохранении и крупном ритейле важен предиктивный анализ, при котором на основе текущих и прошлых данных или событий прогнозируются будущие, например, в директ-маркетинге, рекламе, анализе рисков, управлении инвестиционными рисками, выявлении мошенничества, финансовом скоринге.
Greenplum позволяет сохранить исторические данные и обрабатывать их для глубокого исторического анализа.
Проекты Big Data
Greenpum подойдет в случае возникновения новых задач в Big Data, когда пользователям необходимы все имеющиеся, структурированные и полуструктурированные данные.
СУБД позволяет не только хранить огромные объемы информации, но и активно работать с данными из нескольких источников с минимальной предварительной обработкой большому количеству пользователей.
Greenplum vs ClickHouse
ClickHouse - колоночная СУБД с открытым кодом, позволяющая выполнять аналитические запросы в режиме реального времени на структурированных больших данных.
Наравне с Greenplum активно используется при проектировании современных хранилищ данных благодаря высокой производительности, скорости обработки данных и возможностям масштабируемости. По версии DB-Engines Ranking, обе СУБД входят в ТОП-50 самых популярных в мире.
ClickHouse обладает следующими особенностями:
Самая быстрая колоночная OLAP-СУБД
Колоночное хранение данных позволяет при выполнении запроса считывать данные только тех столбцов, которые непосредственно участвуют в этом запросе. Хранение большого объема данных при этом не будет сказываться на скорости их чтения.
СУБД способна обрабатывать до 1 млрд строк в секунду на одном сервере и до 2ТБ в секунду на кластере из 400 узлов.
Оптимизирует хранение данных и запросы
СУБД позволяет сжимать одинаковые или похожие данные благодаря различным способам хранения смежных значений в столбце. Поддерживает специализированные кодеки (Delta, DoubleDelta, GCD, Gorilla, T64) - программные инструменты для кодирования и декодирования данных, которые позволяют еще больше уменьшить объемы данных.
Физическая сортировка данных по первичному ключу позволяет быстро получать конкретные значения или диапазоны, а также легко добавлять данные в таблицу.
Эффективно использует ресурсы
СУБД спроектирована для работы не только на оперативной памяти, но и на обычных жестких дисках. Это обеспечивает низкую стоимость хранения на 1ГБ данных.
К тому же данные в ClickHouse не только хранятся по столбцам, но и обрабатываются по векторам — фрагментам столбцов, что позволяет более эффективно использовать ресурсы процессора.
Масштабируется до совокупного объема данных в несколько Пбайт
Для масштабирования в СУБД достаточно просто добавить новые узлы в кластер.
ClickHouse поддерживает горизонтальное масштабирование: распределенную обработку запроса за счет механизма шардирования. При шардировании данные расположены на разных сегментах (шардах). Каждый сегмент может представлять собой группу реплик, которые используются для отказоустойчивости, а запрос будет выполнен на всех сегментах параллельно.
Не поддерживает ACID-требования и точечные операции обновления и удаления данных (UPDATE и DELETE)
В ClickHouse нет транзакций, то есть возможностей провести несколько операций с БД одновременно, так как СУБД ориентирована на считывание данных. Это может ограничить функционал СУБД, например, в финансовой сфере, где необходимо отследить операции клиентов.
СУБД не предоставляет возможность точечно изменять или удалять записанные данные. Есть массовое удаление и изменение данных для очистки неактуальной информации или соответствия GDPR (Общий регламент по защите персональных данных).
Сравнение Greenplum и ClickHouse
Сравним Greenplum и ClickHouse по ключевым критериям:
Greenplum | ClickHouse | |
---|---|---|
Описание | Open source реляционная СУБД на PostgreSQL, имеющая MPP- архитектуру | Open source реляционная СУБД колоночного типа |
Поддержка ANSI SQL | ANSI SQL 2008 + 2012 extensions (OLAP и т.д.) | Поддерживает декларативный язык запросов на основе SQL, который во многих случаях идентичен ANSI SQL |
Соответствие ACID | Обеспечивает широкую поддержку транзакций, так как полностью соответствует принципам ACID. Уровень изоляции транзакций — Serializable | Не поддерживает ACID-требования |
Объединение таблиц | Корректно обрабатывает локальные и распределенные запросы с JOIN-операторами | Нет классических JOIN-операций. Правая часть JOIN должна помещаться в память одного сервера. Невозможно объединить 2 таблицы больше памяти одного сервера |
API и возможности доступа к данным | HTTP, gRPC, собственный протокол JDBC, ODBC | JDBC, ODBC |
Поддерживаемые ОС | Linux | Linux, FreeBSD, Mac OS X |
Скорость обработки данных | Скорость зависит от объема данных, время отклика от нескольких до пары десятков секунд | До 1 млрд строк в секунду на одной ноде и до 2ТБ в секунду на кластере из 400 нод. Время отклика менее 200 миллисекунд. При обработке коротких запросов есть задержка менее 50 миллисекунд |
Управление доступом | По стандарту SQL – для разных групп пользователей с установкой определённого набора функций | По стандарту RBAC - на основе ролей пользователей |
Аварийное восстановление и отказоустойчивость | Обеспечивает отказоустойчивость благодаря наличию резервного мастера и зеркал для каждого сегмента. Функций аварийного восстановления нет | За счёт управления шардами и репликами на уровне таблиц можно создавать различные нестандартные конфигурации, в которых, например, часть таблиц хранится в одном ЦОД, а часть — в другом |
Безопасность данных | Есть пользователи, группы, разрешения и наследование, поддержка шифрования данных и SSL-протокола | Встроенных функций нет, кроме массового удаления и изменения данных для соответствия GDPR. В новые версии включён функционал Kerberos-авторизации для Kafka и Kerberos-авторизации доступа к HDFS, созданный Arenadata |
Исходя из приведенных выше особенностей двух СУБД и сравнительной таблицы можно сказать, что каждая из них подходит для своих типовых сценариев использования.
Надежная Greenplum с возможностями обработки больших объемов данных подойдет для:
Построения Data Lake и больших проектов DWH
Предиктивной аналитики и прогнозирования
Скоринга событий
Аналитики Big Data в реальном времени
Углубленного анализа специализированных запросов Ad-hoc
Высокоскоростная ClickHouse будет подходящей для:
Построения корпоративных хранилищ данных
Бизнес-аналитики данных в реальном времени
Обработки простых Ad-hoc запросов и работы с быстрыми витринами данных
Быстрых full scan операций по проверке всей БД с последующей выдачей запроса на внешний ресурс
Сложных агрегаций при работе с широкими денормализованными таблицами фактов