Комментарии 6
Управление данными и "Качество данных" - это одно и то же?
Периодически спрашиваю:
"Качество данных". Тема эта сейчас модная и часто на хабре вспоминается, только не видел хорошего структурирования \ метамодели этого уже модного, но пока еще загадочного Data Quality.
Хорошо бы некий путеводитель по многоМерному "Качеству данных" - Управление данными и их инструментам \ технологиям (OpenMetadata \ MDM, единый источник правды для BI и др.).
Есть ли где-то картинка \ блок схема, где показаны все "функции \ процессы" (с взаимосвязями) - составляющие (направления) этих Управление данными, "Качество данных", Data-функций?
Привет.
Вопрос хороший, спасибо.
Из практики, качество данных - это только часть общего управления данными. Но да, одна из самых важных частей, потому что её видит в первую очередь заказчик.
Если коротко, то качество - это про то, чтобы цифра оборота компании на столах разных директоров, подготовленная разными людьми была стабильно одной и той же и объективной.
Это и про методологию, и про проверки и про пайплайн данных и про SLA с поставщиками и потребителями данных и про человеческий фактор.
Управление данными - это про систему в целом, инфраструктуру данных, потоки, организацию и процессы работы с данными.
Технически, возможны перекосы в обе стороны.
Если управление данными плохое, качество будет не стабильным, а без стабильности сложно называть данные качественными.
Если качество данных плохое, то организация системы работы с данными, в принципе, никому не интересна.
Если качество данных плохое, то организация системы работы с данными, в принципе, никому не интересна.
Может наоборот, если качество изначально изначально хорошее (точнее достаточное), то и запускать проекты "Качество данных" не нужно? Можете показать примеры хороших и плохих качеств данных? В чем качество измерять? Кг, метры и т.п. Желательно полный набор метрик. Пример один (не очень) типа если анкеты заполнены только на 70% - это плохое качество, на 90% - хорошее. Другой пример, в одной учетной системе у человека один адрес проживания, в другой системе - другой. Видимо подобные оценки можно классифицировать, т.е. есть ли "Большой мета-классификатор данных": по полноте данных, по совпадению в разных системах и т.п.
Видимо отдельная категория будет на проверку е и ё и другие "грабли русского языка". Т.е. как бы такое "допустимо", но "не совсем качественно" (одни системы сопоставят две такие фамилии, а другие посчитают, что это разные фамилии). А еще одна и та же буква в разной кодировке может быть.
Ну а насчёт путеводителя - запрос отличный.
Соберу, и в рамках индивидуальной практики пригодится, думаю. )
И, простите, сразу не ответил на прямой вопрос:
Есть ли где-то картинка \ блок схема, где показаны все "функции \ процессы" (с взаимосвязями) - составляющие (направления) этих Управление данными, "Качество данных", Data-функций?
Конечно, есть. "Классическое" описание - DAMA-DMBOOK2.
Материал комплексный, но лично мне понятных примеров и схем было мало, поэтому думаю, стоит собрать своё видение.
Конечно, есть. "Классическое" описание - DAMA-DMBOOK2.
Можете название рисунка указать из Списка иллюстраций DAMA-DMBOOK2. Я ожидал увидеть на схеме несколько десятков кубиков, объединенных в некие кластеры (составные кубики), которые полностью покрывают эти самые Управление данными, "Качество данных", Data-функции.
Одним из кубиков будет "Каталог данных \ метаДанных" (вроде как ключевое понятие).
Что кроме DAMA-DMBOOK2 почитать посоветуете для навигации по Управление данными, "Качество данных", желательно прямо со ссылкой на текст.

Data-функция не работает вместо вас