Comments / Profile of SergeIndex / Habr

Сергей Горшков @SergeIndex

Пользователь

Дата-центрическая архитектура: «волшебная пуля» от интеграционных проблем

SergeIndex Jun 17 2021 at 05:24

Спасибо за комментарий, вы подняли сразу несколько важных вопросов.

Мы уже несколько лет занимаемся созданием дата-центрических решений, в которых управление данными происходит с помощью онтологических инструментов. Пока в нашей практике нет предприятий, которые бы полностью перешли на такую архитектуру, но есть вполне убедительные примеры их реализации для конкретных и довольно сложных областей практической деятельности. Как правило, наши заказчики — крупные предприятия, которые в силу уникальности своих задач имеют дело с большим количеством не стандартного и/или самописного ПО, и думают о том, как с точки зрения архитектуры упростить его дальнейшее развитие, интеграцию и сопровождение.
Примеров проектов с открытым кодом, реализующих дата-центрические принципы, к сожалению, сходу не назову.

Вы правы, когда говорите, что разные группы пользователей видят мир по-разному. В «традиционном» подходе это приводит к созданию разных информационных представлений одних и тех же бизнес-объектов и их обработке в разных приложениях. Идея дата-центричности в сочетании с использованием онтологического моделирования как раз позволяет остаться в рамках одной связной модели, отражая несколько взглядов на каждый объект. При этом можно сохранить то общее, что видят в объекте все пользователи (начиная с названия/идентификационных данных сущности), и одновременно отразить различия — в его принадлежности типам/классам, наборе свойств, конструкции (наборе составляющих объектов).

Обычный подход к проектированию модели данных состоит, как вы верно указали, в том, чтобы построить структуру данных в хранилище, исходя из набора операций, которые с этими данными нужно будет выполнять. В онтологическом моделировании мы стараемся создавать модель так, чтобы она была наиболее близка структуре представлений бизнес-пользователей о реальности, на этапе моделирования совершенно не думая о том, в какой структуре данные будут представлены физически. Это позволяет сократить разрыв между тем, какими категориями и понятиями мыслит пользователь, и структурой данных, упрощает аналитические задачи.

Но, разумеется, на этапе проектирования хранилища мы не можем не думать о том, какой объем данных будет представлен в той или иной структуре, и как мы их будем обрабатывать. Сама по себе идея дата-центричности на этот вопрос не отвечает, но на него могут ответить производители конкретных платформ. Было бы идеально хранить всю информацию в одной графовой базе данных, но на практике это сейчас невозможно. Поэтому, например, наш продукт с логической точки зрения представляет собой мульти-модельное хранилище, которое может использовать реляционную, колоночную, документ-ориентированную или любую другую модель физического хранения для объектов разных классов. Для этого платформа подключается к множеству СУБД разных типов. На уровне настроек платформы указывается, в какой СУБД должны храниться объекты тех или иных классов. Эти настройки довольно детальны: например, если мы выбираем в качестве хранилища таблицу Postgres, мы можем использовать ее со стандартной для платформы структурой, которая не требует создания столбцов для каждого свойства (используем колонку типа jsonb), или же создать конкретные столбцы для каждого свойства и настроить по ним индексы, сегментирование и т.д. При этом колонка jsonb все равно существует — она предназначена для хранения значений тех свойств, которые будут созданы в модели «на лету», и для которых администратор еще не успел настроить мэппинг на конкретные колонки.
Конечно, это уже технические детали конкретной реализации. Идея же состоит в том, что платформа управления данными может абстрагировать приложение-клиент от физических деталей хранения информации, и в то же время обеспечить гибкость управления этими деталями для администратора платформы, отделить процесс моделирования предметной области от процесса настройки физической структуры данных. С точки зрения бизнес-приложения все данные представляют собой единый граф, а физически могут находиться где угодно.

Про черно-белое и хайп: полностью с вами согласен. Конечно, применение каждой технологии, в том числе дата-центрической архитектуры, оправдано только в определенных условиях. В нашем случае предпосылкой является очень сложная и быстро изменяющаяся модель данных, содержащая десятки тысяч типов сущностей и свойств. Но я говорю об этом уверенно, т.к. события последнего времени, включая пандемию, показали, насколько быстро могут возникать новые виды данных, критически влияющих на бизнес, насколько быстро их нужно включать в обработку в ИТ-системах. У нас есть свои «истории успеха», связанные с очень быстрой реализацией обработки сложных данных за пару недель в условиях, когда обычный процесс проектирования и реализации изменений в ИТ-системах занял бы месяцы.

И манифест, и эта статья намеренно имеют провокационную составляющую. И, конечно, словосочетание «волшебная пуля» я употребляю с иронией. Несмотря на это, все приведенные в статье и комментариях рассуждения по сути вопроса имеют рациональную основу и подкреплены практикой.