Немного контекста.
Данные нужны везде — для понимания трендов и рисков, для улучшения клиентского опыта, для технической аналитики.
Вместе с цифровизацией и экспоненциальным ростом объема и разнообразия данных растет потребность в надежных, масштабируемых, производительных хранилищах.
Чтобы самостоятельно извлекать ценность из данных и оперативно использовать их в работе, нужно построить и поддерживать соответствующую инфраструктуру. Это трудозатратный подход.
Сегодня поделимся нашим опытом, как снизить капиталовложения в оборудование с большим объемом памяти, добиться производительности и высокой отказоустойчивости при создании DataLake и корпоративного хранилища данных.
Почему недостаточно просто хранить данные
Есть множество причин хранить данные — от необходимости обеспечить непрерывность функционирования бизнеса за счет бэкапов до выполнения нормативных требований. Важный нюанс заключается в том, что во многих организациях накоплены огромные массивы информации.
Превращение сотен терабайт данных в практические знания непосредственно влияет на эффективность бизнеса. Data-driven подход позволяет быстро принимать решения, извлекая ценность из всего объема данных.
Большие данные помогают прогнозировать, сколько товара должно продаться в розничных точках, анализировать стоимости акций, строить дашборды, которые в режиме «одного окна» предоставляют разнообразные сведения из различных информационных систем.
Но для работы с нагрузками такого типа уже недостаточно классических СУБД. Чтобы эффективно справляться с обработкой «тяжелых» аналитических запросов на объемах больше 1 ТБ, используют массивно-параллельные (massive parallel processing, MPP) базы данных.
MPP-архитектура позволяет эффективно распараллеливать нагрузку при поступлении аналитических запросов, автоматически изолировать процессы разных пользователей и таким образом разграничивать ресурсы кластера.
Корпоративное хранилище данных на MPP-СУБД: для чего использовать?
Горизонтально-масштабируемые системы применяются во всех сферах бизнеса, где необходимо хранить и обрабатывать большие объемы данных.
Интересно наблюдать влияние MPP-СУБД на различные аспекты бизнес-операций. Далее разберем несколько ключевых кейсов, в которых уже бесполезно использовать традиционные СУБД.
Единое хранилище структурированных и неструктурированных данных
Крупные организации генерируют терабайты данных всех возможных типов. Со временем перечень используемых источников разнородной информации постоянно расширяется, что ведет к нескольким проблемам с интеграцией разрозненных компонентов: увеличивается время получения данных, падает их качество, растут затраты на инфраструктуру и обслуживание.
Логичное решение — создание единого быстрого хранилища, в котором все корпоративные данные будут доступны пользователям в удобном виде. Ядром такого решения становится MPP-СУБД, на которой реализуется хранилище данных. MPP-система позволяет достаточно легко подключать новые источники, проверять качество поступающих данных, хранить и обрабатывать их.
Подготовка данных для моделей машинного обучения
Рассмотрим на примере — как работают с данными в промышленной компании, где запущены цифровые двойники.
Разные информационные системы (ИС) отвечают за то, чтобы на производственной линии оказались необходимые детали, сработали станки, а датчики на каждом этапе производства определили, нет ли в продукции дефектов.
Данные о станках и продукции от ИС уходят в масштабируемое корпоративное хранилище, построенное на MPP-СУБД. Далее для их анализа используют ML-модели, которые помогают инженерам определять, какие параметры линии необходимо настроить для минимизации брака.
Аналитика также улучшает операции по техническому обслуживанию оборудования, например, для прогнозирования срока службы станков. В целом, аналитика данных обеспечивает практически немедленную идентификацию неисправностей, что, в свою очередь, увеличивает общую надежность парка техники.
Отчеты и дашборды
Сотрудники могут затрачивать много времени, чтобы собирать из разрозненных систем данные для различной отчетности. Сотни аналитиков могут генерировать тысячи запросов, сильно нагружая ИТ-системы, предназначенные в первую очередь для оперативного учета. При этом в некоторых случаях данные обязательны и требуются регулярно — например, для подготовки операционной, управленческой, регуляторной или МСФО-отчетности
Кроме того, чтобы бизнес-юниты на всех организационных уровнях видели, как идут дела, нужно в режиме реального времени сводить данные в аналитические дашборды. В идеале нужно предоставлять пользователям в режиме «одного окна» самые разнообразные сведения, поступающие из различных информационных систем. Такая визуализация подразумевает еще и быструю реакцию на все происходящие события.
Чтобы решить обе эти задачи, нужна действительно быстрая СУБД.
Ищем эффективное решение для хранения и обработки данных
Структурированные данные можно хранить как в Data Lake, так и в Data Warehouse.
Основной задачей Data Lake является сбор большого объёма данных в сыром виде, который можно обрабатывать и анализировать впоследствии.
Data Warehouse оптимизирован для выполнения запросов и анализа. Это хранилище часто используется под отчётность и Business Intelligence (BI).
Бизнес ориентирован на универсальные решения, которые работают с данными любой структуры из разных источников, но подготовка инфраструктуры для такого хранилища — сложная задача.
В связи с рисками невозможно использовать западное проприетарное ПО, а open source требует серьезной доработки и мощной экспертизы внутри компании.
Снизить затраты на создание инфраструктуры для корпоративного хранилища возможно с решениями российского вендора Arenadata. Сервисы Arenadata доступны в облаке MWS. Они позволят бизнесу без лишних затрат разворачивать базы данных для принятия управленческих решений на основе анализа большого объема информации, а также упростят обучение моделей искусственного интеллекта.
Arenadata DB (ADB) — аналитическая, распределенная СУБД с открытым исходным кодом. Arenadata DB предназначена для хранения и обработки информации объемом до десятков петабайт и позволяет создать корпоративное хранилище данных для финансовых отчетностей, систем клиентской аналитики и управления маркетинговыми компаниями. На основе сервиса можно построить корпоративные системы бизнес-аналитики: ADB интегрируются с любыми BI-системами, совместимыми с JDBC/ODBC. Кроме того, сервис позволяет быстро разворачивать и сворачивать зоны «песочниц» для пилотных проектов и проверки статистических гипотез, а также работать со всеми аналитическими инструментами в единой среде.
Arenadata Hadoop (ADH) — это корпоративный дистрибутив на базе Apache Hadoop. Сервис подходит для хранения и обработки больших объемов структурированных, слабоструктурированных и неструктурированных данных, создания инфраструктуры для анализа BigData, решения задач анализа данных и машинного обучения, а также непрерывного сбора и анализа различных метрик и журналов.
Arenadata QuickMarts (ADQM) — кластерная колоночная система управления базами данных. С её помощью вы можете в режиме реального времени генерировать аналитические отчеты разного плана, используя большие объемы информации, хранящейся в плоских витринах. ADQM многократно быстрее традиционных СУБД. ADB совместно с ADQM являются полноценной заменой SAP BW и на их основе можно создать BI-системы с более чем тысячей пользователей, способных обрабатывать запросы к сотням витрин.
Несмотря на то, что Arenadata разрабатывает продукты на базе проектов с открытым исходным кодом (MPP-СУБД, основанная на PostgreSQL), они существенно отличаются от «ванильных» версий. Продукты Arenadata протестированы и нативно совместимы между собой, сразу готовы к развертыванию и использованию. Они изначально разрабатывались как системы, способные работать в облаке, что позволяет легко мигрировать и быстро стартовать.
Arenadata в облаке MWS
Решения от Arenadata доступны как PaaS (platform as a service). При этом развернуть платформу хранения данных можно как на клиентских серверах, так и в публичном облаке.
Arenadata может быть интегрирована с другими облачными сервисами — например, DBaaS. Это позволяет использовать облачную базу данных в качестве источника для хранилища.
Сейчас мы работаем над развитием набора BI-инструментов для доставки данных пользователям. Это инструменты управления, которые с помощью различных отчетов и дашбордов в реальном времени обеспечивают руководителей информацией, необходимой для принятия решений. BI напрямую работает с технологиями Arenadata, обеспечивая быстрый доступ к данным СУБД.