Поиск данных в инструментах Data Governance: вызовы и решения
Добрый день!
Меня зовут Никита, я работаю ведущим системным аналитиком в Департаменте управления данными компании Ростелеком.
В данной статье я опишу наш опыт использования Реестра отчетов и Бизнес-глоссария, подводные камни, с которыми мы столкнулись, а также планы по оптимизации рабочих процессов в инструментах Data Governance (далее – DG).
Три года назад ИТ-команда Ростелекома разработала Реестр отчетов и Бизнес-глоссарий на базе Open-Source технологий, и данные модули впоследствии получили широкое распространение в периметре компании. Также была создана Единая точка входа, позволяющая сотрудникам получать быстрый доступ ко всем отчетам и бизнес-терминам, существующим в компании. За два года количество постоянных пользователей Единой точки входа увеличилось с 200 до 2300 человек, при этом количество уникальных посетителей Единой точки входа составляет порядка 400 пользователей еженедельно, и данная цифра постоянно растет.
Инструментарий для работы с данными покрывает значительный объем запросов Ростелекома в разрезе таких сегментов как B2B, B2C, БТИ и т.д. Подробнее можно прочитать здесь и здесь.
Департамент по управлению данными заинтересован не только в оптимизации процессов работы с данными во всей компании, но и в улучшении показателей пользовательского опыта в разрезе DG продуктов. Для этого необходимо модернизировать функционал существующих систем путем поиска точек роста и выпуска обновлений по их устранению. Искать точки роста мы решили при помощи интервьюирования пользователей и сбора обратной связи от них. По результатам были отрисованы карты пользовательских путей (cjm – "customer journey map") для DG инструментов, а также сформирован бэклог, описывающий основные зоны роста в части систем по управлению данными. В связи с этим, в скором времени планируется ряд обновлений с целью внедрения доработок и увеличения эффективности продуктов.
Выявленные зоны роста: поиск и предварительный анализа в инструментах DG.
Избыточность результатов поиска.
Для поиска нужного отчета или бизнес-термина в DG модулях предусмотрена система поиска. Она включает в себя:
· Поисковую строку;
· Фильтры (по «чекбоксам» и произвольному тексту);
· Настройку количества показываемых полей таблицы с результатами поиска;
· Сортировку.
Однако, несмотря на существующий функционал поисковой системы, пользователи DG инструментов инвестируют достаточно большое количество времени на поиск и выбор объекта. Одним из подводных камней в данном случае является избыточность результатов поиска.
Избыточность данных в базе данных – это факт наличия значительного количества информации, которое препятствует ее корректной обработке и анализу. Однако факт избыточности данных не всегда подразумевает под собой необходимость в их удалении.
Узкая функциональность поиска.
Как упоминалось выше, все модули по работе с данными в Ростелекоме обладают функциями поиска и фильтрации. Но стоит упомянуть, что запросы пользователей к системам в современном мире постоянно растут, поэтому невозможность сохранять историю поиска объектов данных, а также отсутствие возможности поиска по синонимам, с использованием транслитерации или с опечатками в словах являются критичным фактором для технических и нетехнических специалистов.
Недостаточный уровень структурированности метаданных в описании отчета.
Перед выбором отчета пользователь, как правило, проводит его предварительный анализ на основании указанных в карточке метаданных в следующем порядке:
В перечне (списке) отчетов просматривает столбцы таблицы («Наименование отчета», «Краткое описание», «Сегмент заказчика», «Владелец» и т.д.)
Карточка отчета в модуле "Реестр отчетов" Переходит в карточку отчета и анализирует различные сведения о нем (в том числе таблицы-источники, историю редактирований, ссылки на сопутствующую документацию и т.д.)
Стартовая страница модуля "Реестр отчетов"
Несмотря на перечисленные выше методы предварительного анализа содержания отчетов, пользователи Реестра считают, что высокий уровень детализации описания и недостаток структурированности в части расположения атрибутов делают процессы поиска и выбора необходимого отчета достаточно продолжительными.
Недоверие к данным, которые содержатся в отчете.
Часто на практике случаются ситуации, когда сотруднику нужно оперативно найти отчет и отправить его руководителю. Руководитель, получив отчет и изучив его, начинает задавать сотруднику ряд вопросов:
· Насколько корректны данные в отчете?
· По какой причине я могу доверять данным в отчете?
· Использовали ли этот отчет ранее? Есть ли сведения о количестве ошибок, которые в нем содержатся?
В процессе функционирования модулей их пользователям становится очевидно, что высокое качество данных – это важный компонент для любой системы, и именно он помогает избежать регулярных перепроверок и корректировок данных.
Планируемые инициативы со стороны Ростелекома, направленные на модернизацию поиска и предварительного анализа в инструментах DG.
1. Сертификация отчетов.
Сертификация отчета – набор процедур, направленных на структурирование отчетности и контроль ее качества согласно заданным в компании требованиям.
В Ростелекоме данный процесс будет состоять из нескольких этапов, выполняемых ЕЦКО (Центром компетенций по регулярной отчетности):
· Категоризация: присвоение отчету одной из 3 категорий (публичная / коллегиальная / операционная) – в зависимости от структуры его аудитории;
· Верификация: автоматическая и ручная проверки качества описания и документирования отчета в системе DG;
· Оценка достоверности: подтверждение соответствия методологии формирования отчета утвержденной унифицированной методологии в компании (проводится только для публичной и коллегиальной отчетностей).
Полностью выполненный процесс сертификации для отчета является индикатором, который подтверждает готовность отчета к использованию и дальнейшему анализу. Сертифицированные отчеты предполагается выводить в начало перечня результатов поиска и им будет присвоена специальная разметка.
Сертификация позволит:
· Минимизировать трудозатраты в части поиска и выбора отчета
· Повысить доверие к количественным данным;
· Обеспечить высокое качество документации и прозрачность методологии;
· Снизить риски формирования заказов на разработку дублирующийся отчетности.
2. Проверка по мета-описанию объектов управления данными.
В Реестре отчетов Ростелекома находится большое количество объектов, что затрудняет процесс проверки качества всех существующих отчетов. В связи с этим, сотрудники планируют использовать выборочную проверку либо верификацию метаинформации в разрезе отчетов. В данном случае для самых часто посещаемых отчетов реализуется автоматическая проверка качества и по ее итогам проставляется скоринговый балл в соответствии с группой критериев.
3. Развитие функционала поиска.
Поиск в современных системах обладает достаточно широким функционалом, что позволяет пользователю оперативно найти нужный ему объект: умная строка поиска, гибкая фильтрация, различные виды сортировок. Ростелеком также не стоит на месте в части развития поисковой системы, а именно в течение полугода планируется внедрение OpenSearch технологии для всех модулей DG.
OpenSearch — это управляемый сообществом пакет поиска и аналитики с открытым исходным кодом под лицензией Apache 2.0, который упрощает поиск, визуализацию и анализ данных. Благодаря открытому коду, сотрудники компании могут самостоятельно расширить функциональность OpenSearch с помощью набора подключаемых модулей, например, технологий AI и ML.
OpenSearch состоит из хранилища данных и поисковой системы, а также визуализации и пользовательского интерфейса (OpenSearch Dashboards).
Среди основных преимуществ данного решения также стоит выделить:
· Встроенные поисковые возможности, в т.ч. полнотекстовый запрос, автозаполнение, поиск с прокруткой, настраиваемые оценки, ранжирование и т.д.
· Синтаксис SQL-запросов
· Наличие сборщика данных (Data Prepper) на стороне сервера, способного фильтровать, обогащать, преобразовывать, нормализовать и агрегировать данные для последующей аналитики и визуализации
· Возможности шифрования, аутентификации, авторизации и аудита, включая интеграции с Active Directory, LDAP, SAML, Kerberos, веб-токенами JSON и т.д.
· Масштабное сообщество разработчиков, в т.ч. активная сеть партнеров.
4. Внедрение рекомендательной модели.
Функционал рекомендательной модели подразумевает приоритизацию показа объектов данных для пользователя на основании его должности в текущей организационной структуре – первоначально будут предлагаться те отчеты, которые наиболее часто используются его коллегами на аналогичных позициях. Также будет задействована опция сбора статистики в разрезе поиска объектов данных.
5. Тегирование с применением логического удаления.
Тегирование – важная опция для разметки объекта данных, которая может предоставить дополнительную статистику о нем на этапах поиска и преданализа. Одним из самых популярных тегов в модулях по работе с данными – «Актуальность/ Неактуальность объекта». Актуальный объект – это самая последняя версия отчета/ термина, которая была загружена в систему. При этом, предыдущая версия этого объекта данных не удаляется, а помечается тегом «Неактуальный объект» и автоматически переносится в архив (операция логического удаления).
6. Построение взаимозависимостей для объектов данных в ручном режиме
На данный момент в Ростелекоме используется технология S2T (source-to-target) в части визуализации взаимозависимостей данных. Эта операция проводится вручную, что является причиной наличия значительного количества стандартов по документированию и контролю передачи данных и, как следствие, высоких трудозатрат сотрудников в рамках задач по управлению данными.
Заключение.
В данной статье были описаны основные DG инструменты, используемые в периметре Ростелеком. Наша компания занимается активным выявлением зон роста в части внедренных систем и регулярно проводит спринты по обновлению модулей.
Помимо этого, на текущий момент планируется разработка автоматического Data Lineage, который позволит избавиться от сверхдетального описания взаимозависимостей между объектами данных и сделает возможным принятие важных бизнес-решений в более оперативном режиме.
Спасибо за внимание!
Статья подготовлена командой управления данными «Ростелеком»