Comments 3
Метаданные и основные данные (master data) - это одно и то же, или нет?
Мы тут про обычный MDM говорим? Или о чем-то другом?
Пример:
В одном печально известном банке (по крайней мере некоторое время назад) один и тот же клиент (физическое или юридическое лицо) мог числиться по разному в зоопарке территориальных и функциональных ИТ-систем (клиентских, кредитных, маркетинговых) как Иванов Иван Иванович, Иван Иванович Иванов, Иванов Иван, Иван Иванов, Ванька, и т.д. Описываемый в статье инструмент позволяет как-то понять, речь идет об одном и том же клиенте, или о разных?
Добрый день!
Короткий ответ: Нет, метаданные и MD это разные понятия. MDM относится к управлению самими данными (которые вы в своей области объявляете основными). В этом инструменте нельзя решить проблему сопоставления значений.
Более подробно:
На примере с именами пользователей, master data это сами значения имен. Метаданными в этом случае будут являться названия столбцов фамилия, имя, отчество и их описание, теги, понятия и т.д.. Если в какой-то таблице данные не нормализованы и в одном столбце сразу указано полное ФИО, то с помощью OpenMetadata возможно разметить эти столбцы как связанные понятия или синонимы.
Но инструмент не позволит вам определить, что именно Иванов Иван Иванович = Иванов Иван, а только подсветит, что в этих полях содержатся похожие значения. Что в случае имен и так довольно очевидно.
Также важно, что это сопоставление метаданных по "похожести", связанности и синонимичности будет проводится либо вручную, либо вам нужно будет сделать workaround с самостоятельным анализом ваших данных для автоматического определения похожести самих данных, чтобы потом через API OMD разметить метаданные.
То есть это генератор спецификаций источников данных.
Ну наподобие как из исходного кода сгенерить спецификацию прикладного интерфейса приложения в формате OpenAPI.
Я среди стандартных коннекторов вижу, к примеру, SAP HANA. Там в БД адская туча преднастроенных стандартных системных таблиц, плюс такая же (или даже более мощная) туча таблиц, сгенерированных приложениями SAP S/4HANA (опять же к примеру). При этом в аналитическую систему (SAP Business Warehouse или какую-нибудь внешнюю) выгружаются данные лишь из малой части этих таблиц. И более того, из большинства таблиц выгружается лишь часть полей (столбцов). Мне чтобы для аналитической системы построить глоссарий и data lineage придется нужные таблицы и их поля вручную выбирать из всего что есть?
По умолчанию в OMD создаются связи между представлениями (view) и таблицами, на которых они построены
View - это витрина данных моей аналитической системы? Или какой-то внутренний объект OMD? Если внутренний, то как он создается? И как связан с оконечными витринами данных? Как именно создаются связи между view и таблицами? А если у меня данные в витрину попадают из таблицы после обработки каким нибудь Pandas
. Или DAG в Airflow?
Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata