В продолжение статьи по управлению данными и Data Governance: Что такое «Каталог Данных»? Это список «чистых» и готовых к использованию данных, которые можно использовать для интеграции или формирования витрин данных – Datamart для построения отчетности или дашбордов, или для предоставления аналитикам и бизнес-пользователям («Гражданским Аналитикам») для самостоятельно (Self-Service) аналитики, когда они смогут самостоятельно построить необходимую им отчетность, не прибегая к помощи специалистов по управлению данными или, тем более, ИТ-отдела, для которого управление данными и разработка отчетности явно не является приоритетной задачей.
Каталогизация данных, в свою очередь предполагает наличие программного продукта для хранения списка каталогизированных данных и их описания (метаданных) — «Каталога Данных».
Но дело в то, что еще до формирования каталога данных и проектов по очистке данных должны быть другие проекты: в первую очередь я говорю про бизнес-глоссарий, в котором бизнес расписывается кровью, что означает тот или иной показатель. Процитирую свою книгу: «Когда на встрече присутствует несколько отделов, я иногда задаю простой вопрос, чтобы показать необходимость данного каталога. Я спрашиваю: «А как вы считаете продажи?». Коммерческий директор отвечает: «Мой показатель – сколько я продал. Я отгрузил 40 вагонов продукции – вот мой показатель!». Но если на встрече присутствует финансовый блок, то тут же взвивается: «Дорогой коллега, вы изволили на 20 вагонов дать отсрочку в 30 дней, а еще на 10 вагонов – аж 60! Вот когда деньги придут, это и будет продажа!». Логистика может добавить: «А еще мы фуру брака приняли от сети и отправили поставщику. Мы это отдельно считаем или прошлую продажу будем корректировать?». Друзья, вот тут уже несколько показателей: давайте определимся, как их называть – гросс, нетто, брутто, финансовая, с учетом возвратов… Вам же самим будет легче разбираться. Давайте сделаем так, что вся компания будет на одной волне, и все будут понимать, что означает и как рассчитывается тот или иной показатель. Для этого необходимо завести специальный раздел во внутренней Базе Знаний компании. Вы еще не используете базу знаний? Очень-очень зря. Ее стоит завести хотя бы для этого проекта. В базе знаний формируется бизнес-глоссарий: за каждым показателем закрепляется ответственный, он рассказывает, что этот показатель означает, как рассчитывается и с какой периодичностью. Потом подключаются ИТ-специалисты, которые отвечают за работу с данными, и они уже детально описывают, из каких систем необходимо забирать данные, чтобы его получить. Если данный показатель планируется загрузить в хранилище данных (или он там уже есть), то необходимо его указать и сказать, как часто он обновляется.»
Таким образом, я бы начал с ведения бизнес-глоссарий просто в любой базе знаний. И постепенно наполнять Каталог Данных, когда на основе бизнес-глоссария уже получены значимые данные, которые надо или в КХД забирать, или по месту оставлять, если практикуется или планируется подход «DataMesh».
Плюс, непременно, нужна связь с BI-системами (какими показателями пользуется какой отчет + статистика использования) и с шинами данных, чтобы мониторить прохождение потоков и вешать на эти потоки DQ сервисы. При этом желательно вести еще и каталоги разработанных отчетов и витрин для переиспользования готовых отчетов и витрин. Так, на одном из проектов мы заменили 450 отчетов по CRM одним отчетом, разбитым по правам.
Так что не спешите с выбором продуктов – начните с методологии! Стартовать можно с любой бесплатной базы знаний, это будет и быстрее, и легче. И будет чем наполнять конкретный программный продукт, когда до него дорастет ваш проект.