Комментарии 8
Почему в статье про MDM нет упоминания MDM ?
! Классное замечание!
Чем может помочь статье про инструменты нормализации данных упоминание МДМ?
Экспертам НСИ (целевой аудитории статьи) необязательно задумываться о том, что их активность встроена в бизнес -процессы по управлению мастер-данными. Но если есть конструктивные предложения - можно и про МДМ написать.
потому что это НСИ - это часть большой системы MDM. А для управления мастер-данными придумано множество подходов и существуют десятки тулов, кроме этого который в статье
В недостатки OpenRefine ещё зверский аппетит на RAM надо бы записать. Имеющихся у меня под рукой 192 Гб на некоторые толстые CSVшки из наших государственных данных не хватало.
OpenRefine хорош, плюсую. есть близкие аналоги, например MitoSheet. Но для подобного ПО нужна крепкая мышь и любовь-терпение в визуальной настройке. Для многих кодеров и DS-ников "длительная" мышь утомительна.
На мой взгляд наибольшее число работ по нормализации НСД пока делаются в Pandas+JupyterLab, поскольку легко разделить работу (коллаборация из коробки), плюс на python легко пишутся UDF для чистки, а fuzzy-алгоритмы для сопоставления грязных данных хорошо масштабируются с отраслевой спецификой.
OpenRefine и другие альтернативные MS Excel инструменты нормализации справочников для Экспертов НСИ