Обновить

Комментарии 6

Управление данными и "Качество данных" - это одно и то же?
Периодически спрашиваю:

"Качество данных". Тема эта сейчас модная и часто на хабре вспоминается, только не видел хорошего структурирования \ метамодели этого уже модного, но пока еще загадочного Data Quality.

Хорошо бы некий путеводитель по многоМерному "Качеству данных" - Управление данными и их инструментам \ технологиям (OpenMetadata \ MDM, единый источник правды для BI и др.).

Есть ли где-то картинка \ блок схема, где показаны все "функции \ процессы" (с взаимосвязями) - составляющие (направления) этих Управление данными, "Качество данных", Data-функций?

Привет.
Вопрос хороший, спасибо.
Из практики, качество данных - это только часть общего управления данными. Но да, одна из самых важных частей, потому что её видит в первую очередь заказчик.

Если коротко, то качество - это про то, чтобы цифра оборота компании на столах разных директоров, подготовленная разными людьми была стабильно одной и той же и объективной.
Это и про методологию, и про проверки и про пайплайн данных и про SLA с поставщиками и потребителями данных и про человеческий фактор.

Управление данными - это про систему в целом, инфраструктуру данных, потоки, организацию и процессы работы с данными.

Технически, возможны перекосы в обе стороны.

Если управление данными плохое, качество будет не стабильным, а без стабильности сложно называть данные качественными.

Если качество данных плохое, то организация системы работы с данными, в принципе, никому не интересна.

Если качество данных плохое, то организация системы работы с данными, в принципе, никому не интересна.

Может наоборот, если качество изначально изначально хорошее (точнее достаточное), то и запускать проекты "Качество данных" не нужно? Можете показать примеры хороших и плохих качеств данных? В чем качество измерять? Кг, метры и т.п. Желательно полный набор метрик. Пример один (не очень) типа если анкеты заполнены только на 70% - это плохое качество, на 90% - хорошее. Другой пример, в одной учетной системе у человека один адрес проживания, в другой системе - другой. Видимо подобные оценки можно классифицировать, т.е. есть ли "Большой мета-классификатор данных": по полноте данных, по совпадению в разных системах и т.п.

Видимо отдельная категория будет на проверку е и ё и другие "грабли русского языка". Т.е. как бы такое "допустимо", но "не совсем качественно" (одни системы сопоставят две такие фамилии, а другие посчитают, что это разные фамилии). А еще одна и та же буква в разной кодировке может быть.

Ну а насчёт путеводителя - запрос отличный.
Соберу, и в рамках индивидуальной практики пригодится, думаю. )

И, простите, сразу не ответил на прямой вопрос:


Есть ли где-то картинка \ блок схема, где показаны все "функции \ процессы" (с взаимосвязями) - составляющие (направления) этих Управление данными, "Качество данных", Data-функций?

Конечно, есть. "Классическое" описание - DAMA-DMBOOK2.
Материал комплексный, но лично мне понятных примеров и схем было мало, поэтому думаю, стоит собрать своё видение.

Конечно, есть. "Классическое" описание - DAMA-DMBOOK2.

Можете название рисунка указать из Списка иллюстраций DAMA-DMBOOK2. Я ожидал увидеть на схеме несколько десятков кубиков, объединенных в некие кластеры (составные кубики), которые полностью покрывают эти самые Управление данными, "Качество данных", Data-функции.
Одним из кубиков будет "Каталог данных \ метаДанных" (вроде как ключевое понятие).

Что кроме DAMA-DMBOOK2 почитать посоветуете для навигации по Управление данными, "Качество данных", желательно прямо со ссылкой на текст.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации