Всем привет!

Меня зовут Егор Корнеев, я менеджер практики по сопровождению и развитию НСИ в «Норникеле».

В этой статье расскажу, как мы победили дубли справочника МТР НСИ (Материально-технические ресурсы Нормативно-справочной информации). Интересный опыт, который команды других компаний смогут использовать как базовую идею для развития качества данных без использования сложных и дорогостоящих технологий.

Как и во многих компаниях – гигантах, внутренние службы НСИ поддерживает большое количество централизованных справочников. В «Норникеле» их более 20-ти. Среди них наиболее популярен справочник МТР:

- Более 1,9 тыс. пользователей и полумиллиона уникальных записей;

- В месяц создается до 20 тыс. запросов, а в год до 200 тыс. запросов на изменение справочника МТР;

- Все основные внутренние функции Компании: Снабжение, Пром. Активы, Производство, Бухгалтерия, Экономика, Капитальное строительство, используют его и заинтересованы в качестве справочника МТР и НСИ в целом.

В таких масштабах важно правильно подходить к поддержанию необходимого качества данных, особенно в Корпоративных мастер-системах и справочниках.

Наша история о том, что совсем не обязательно нанимать консалтинг для определения критериев качества и экспертизы своих данных.

Мы поступили проще - спросили внутреннего Заказчика, какие видит он приоритеты по качеству справочника МТР, на этом и сфокусировались.

Дубли записей МТР, именно они представляли наибольший интерес. Бизнес-пользователи ждали чего-то нового в этом вопросе, ведь стандартные методы отслеживания дубликатов записей не всегда давали ожидаемый эффект.

Команда НСИ «Норникеля» приступила к работе. По итогу был разработан и внедрен в Автоматизированную систему управления Нормативно-справочной информацией (далее – АСУ НСИ) кастомизированный механизм поиска дублей, простой и результативный, снижающий человеческий фактор и трудозатраты по поиску дублей до минимума.

Инструмент был внедрен в АСУ НСИ два года назад (2023 г.) и работает на сегодняшний день.

Какого эффекта мы добились:

· За весь период после внедрения механизма поиска дублей в справочнике МТР не было создано ни одного нового дубля.

· Существенно снизилось количество запросов на создание новых записей МТР, поступающих от бизнеса, которые были реальными дублями существующих записей в справочнике.

· Внедрение механизма позволило повысить уровень культуры пользователей по самостоятельному предварительному поиску имеющихся записей.

· Снизилась нагрузка в целом на процесс ведения справочника и участников процесса (Эксперты МТР, Кураторы номенклатуры, Инициаторы МТР).

Уверены, что этими эффектами не ограничивается польза инструмента, и другие команды в последствии смогут поделиться своими результатами.

 Об инструменте

Это не совсем стандартный подход к выявлению дублей.

Базовый принцип работы инструмента – это сравнение значений всего одного сервисного поля в записи МТР. Сервисное, потому что используется поле исключительно для поиска дублей, а пользователь даже не видит его.

Ключевым моментом, обеспечивающим эффективность инструмента, является уникальная методика «Норникеля», по которой формируется значение этого «особого» поля.

Далее расскажем о всем этом подробнее, чтобы вы смогли применить эту методику у себя.

Для формирования значения этого поля используются введённые пользователями данные в основные поля записи (наименование, марка, размер, нормативный документ и т.д.).

Из них удаляется абсолютно вся информация и данные, которые не несут ключевой ценности в идентификации, при этом могут иметь вариативность одного и того же значения: все знаки, символы, слова, аббревиатуры, сокращения. Все это так часто написано по-разному, что и приводит к появлению потенциального дубля.

Остаются только «сухие» идентифицирующие символы, по которым формируется «особое» поле для поиска дублей. По нему система проводит сравнительный анализ и определяет дубли.

Быстрый пример:

Почему мы удаляем так много?

Как показывает практика, любую запись можно дополнить неограниченным количеством характеристик, признаков, уточнений, не меняя сам МТР по сути. Но основа значений при этом постоянна (в данном случае: типоразмер и гост – М10/16/3579). Именно основа и определяет если не 100%-е, то близкое к этому порогу совпадение.

Может показаться, что в алгоритме не хватает Наименования, но это не случайно.

Для таких случаев, когда наименование вариативно (Насос, Агрегат насосный, Станция Насосная, Гидронасос и пр.), срабатывает одна логика. Когда Наименование не имеет такой широкой вариативности, то срабатывает другая логика, где наименование в связке ключевых параметров участвует.

Логические сценарии работают параллельно, а вместе дают очень точный результат.

При этом весь этот процесс проходит без участия искусственного интеллекта.

А теперь о том, как это работает в реальном процессе:

После завершения необходимых доработок и переноса на продуктивную среду АСУ НСИ, у каждой записи МТР в карточке появилось новое сервисное поле.

Для полноценной работы инструмента поиска дублей потребовалось единоразово сгенерировать значение этого поля для всех существующих в справочнике МТР записей. Для всех новых записей, оно будет формироваться уже автоматически.

И так, процесс создания новых записей в справочнике МТР стандартный: формируется запрос с пустой карточкой записи МТР (черновик). Инициатор запроса, как и обычно заполняет обязательный перечень полей, который ему доступен для просмотра и заполнения.

Самое интересное происходит «под капотом» - в форме записи, которую уже не видит Инициатор МТР, находится новое сервисное поле, оно ещё не заполнено. Надо отметить, что это поле не имеет бизнес-ценности, поэтому не выводится в пользовательский интерфейс справочника МТР.

Далее, после того, как Инициатор заполнил все стандартные для МТР поля, он проводит отправку запроса в процесс согласования.

Именно в этот момент, система перед отправкой карточки запроса запускает серию быстрых команд: формирует из полей карточки значение «особого» поля и запускает сравнительный анализ по всем значениям этого поля, текущих записей в справочнике МТР.

Если система нашла потенциальный дубль, она сообщает об этом Инициатору МТР, запрос остается на его шаге и не уходит на согласование. Инициатору МТР остается принять решение об отклонении запроса или доказать, что это не дубль.

Аналогично система работает и в случае, когда запрос согласовывает Эксперт МТР. У эксперта есть дополнительная возможность сразу пометить запись как дубль или наоборот, отклонить решение системы. Но это происходит удивительно редко.

Как мы упоминали выше, особый способ подготовки данных – залог результативности инструмента.

В чем же наша уникальная Методика?!

Частично о ней мы уже рассказали, и ниже мы приводим один из основных алгоритмов преобразования данных записи для формирования значения сервисного поля для поиска дублей:

По сути, мы создали уникальный шифр, содержащий ключевую информацию, определяющую идентификацию записи МТР. Если шифрование, пример которого привели выше в таблице, настроено в системе верно, дубли будут найдены.

Важно отметить, что данный механизм не зависит от типа номенклатуры и работает со всеми записями справочника МТР.

Имея сгенерированное значение «особого» поля, автоматизированная система может вести фоновую автопроверку наличия дублей в любой точке процесса ведения справочника МТР.

Путем такого шифрования решается ключевая проблема создания дублей, а также затруднительного их поиска в автоматизированном режиме.

Завершение

Инструмент особенно полезен для штатных служб Экспертного сопровождения централизованных справочников НСИ, у которых в приоритете быстрая бесперебойная отработка всех заявок и обращений от бизнес-пользователей. Ведь в этих условиях все сервисные функции должны быть максимально автоматизированы, в том числе минимизировано вовлечение сотрудника / участника процесса в оценку конечного результата, сформированного системой.

После создания такого простого механизма команда НСИ в «Норникеле» перешла к следующему этапу – контролю показателей, связанных с дублями. На основе этого были созданы метрики качества данных, которые открыты для просмотра всем бизнес-пользователям, которые могут в реальном времени отследить сокращение количества дублей в справочнике, прирост новых (точнее отсутствие этого роста) и другие показатели.

Надеемся, что статья для молодых растущих команд НСИ станет полезной основой для автоматизации управления качеством данных Компаний.

Спасибо, что дочитали! Вместе мы делаем мир НСИ чище!