Pull to refresh

Comments 8

! Классное замечание!

Чем может помочь статье про инструменты нормализации данных упоминание МДМ?

Экспертам НСИ (целевой аудитории статьи) необязательно задумываться о том, что их активность встроена в бизнес -процессы по управлению мастер-данными. Но если есть конструктивные предложения - можно и про МДМ написать.

потому что это НСИ - это часть большой системы MDM. А для управления мастер-данными придумано множество подходов и существуют десятки тулов, кроме этого который в статье

Обзор МДМ систем и их инструментария - тема отдельной статьи, если не диссертации, которая устареет в момент публикации. Этим периодически издательство Гартнер балуется с магическими квадрантами. Здесь решалась задача попроще.

В недостатки OpenRefine ещё зверский аппетит на RAM надо бы записать. Имеющихся у меня под рукой 192 Гб на некоторые толстые CSVшки из наших государственных данных не хватало.

Есть такой момент. С другой стороны - типичный справочник номенклатуры компании нефтегазового сектора (из тех, что проходили через мои руки) - 200-250тыс записей, которые пилятся на 100-5000 однородных групп по 0,01-10 тыс записей. На такие объемы для Openrefine достаточно 8-16Гб ОЗУ.

OpenRefine хорош, плюсую. есть близкие аналоги, например MitoSheet. Но для подобного ПО нужна крепкая мышь и любовь-терпение в визуальной настройке. Для многих кодеров и DS-ников "длительная" мышь утомительна.

На мой взгляд наибольшее число работ по нормализации НСД пока делаются в Pandas+JupyterLab, поскольку легко разделить работу (коллаборация из коробки), плюс на python легко пишутся UDF для чистки, а fuzzy-алгоритмы для сопоставления грязных данных хорошо масштабируются с отраслевой спецификой.

Sign up to leave a comment.

Articles