v1st Jan 14 2024 at 13:30

OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ

Medium

9 min

Data Engineering * ERP-systems * Open data *

From sandbox

Comments 8

Ivan22 Jan 14 2024 at 14:37

Почему в статье про MDM нет упоминания MDM ?

sergeyns Jan 14 2024 at 15:22

! Классное замечание!

v1st Jan 14 2024 at 19:15

Чем может помочь статье про инструменты нормализации данных упоминание МДМ?

Экспертам НСИ (целевой аудитории статьи) необязательно задумываться о том, что их активность встроена в бизнес -процессы по управлению мастер-данными. Но если есть конструктивные предложения - можно и про МДМ написать.

Ivan22 Jan 14 2024 at 21:10

потому что это НСИ - это часть большой системы MDM. А для управления мастер-данными придумано множество подходов и существуют десятки тулов, кроме этого который в статье

v1st Jan 15 2024 at 05:40

Обзор МДМ систем и их инструментария - тема отдельной статьи, если не диссертации, которая устареет в момент публикации. Этим периодически издательство Гартнер балуется с магическими квадрантами. Здесь решалась задача попроще.

aborouhin Jan 14 2024 at 19:59

В недостатки OpenRefine ещё зверский аппетит на RAM надо бы записать. Имеющихся у меня под рукой 192 Гб на некоторые толстые CSVшки из наших государственных данных не хватало.

v1st Jan 15 2024 at 05:32

Есть такой момент. С другой стороны - типичный справочник номенклатуры компании нефтегазового сектора (из тех, что проходили через мои руки) - 200-250тыс записей, которые пилятся на 100-5000 однородных групп по 0,01-10 тыс записей. На такие объемы для Openrefine достаточно 8-16Гб ОЗУ.

economist75 Jan 15 2024 at 06:39

OpenRefine хорош, плюсую. есть близкие аналоги, например MitoSheet. Но для подобного ПО нужна крепкая мышь и любовь-терпение в визуальной настройке. Для многих кодеров и DS-ников "длительная" мышь утомительна.

На мой взгляд наибольшее число работ по нормализации НСД пока делаются в Pandas+JupyterLab, поскольку легко разделить работу (коллаборация из коробки), плюс на python легко пишутся UDF для чистки, а fuzzy-алгоритмы для сопоставления грязных данных хорошо масштабируются с отраслевой спецификой.