Comments 7
Содержательно. Спасибо.
Не соглашусь с двумя утверждениями.
Выбор одного источника блокирует обновление из других.
Предсказать где появится следующее обновление не можем.
В борьбе за однозначность теряем своевременность. Своевременность важнее.
Подход «выбор лучшего источника» был популярен в MDM/DQ решениях конце девяностых и начале нулевых.
Сейчас решения учитывают «информационную ценность». Оценивается корректность данных (валидность) и актуальность. На основе этих показателей выносится решение какой из двух адресов брать, а какой нет.
При этом в зависимости от типа сравниваемых объектов выбор может склоняться то в сторону «правильный лучше чем актуальный», то «пусть не актуальный, зато правильный»
И второе
С точки зрения первичного ввода — это упрощение, но «списки» имеют тонкий момент. Ошибка в выборе значения списка неисправима. Человеческий фактор опечаток снижается (такие ошибки исправляем), но появляется новый тип ошибок, который исправить невозможно. Чтобы это предотвратить приходится встраивать проверки в интерфейс ввода на непротиворечивость, а это не всегда возможны технически и логически тоже иногда бывает. Если данные ценные то поможет только двойной ввод, а это дорого.
Не соглашусь с двумя утверждениями.
Так если адрес клиента присутствует в двух базах, то он должен совпадать. В противном случае необходимо выбрать один источник достоверным и игнорировать остальные до исправления ошибок.
Выбор одного источника блокирует обновление из других.
Предсказать где появится следующее обновление не можем.
В борьбе за однозначность теряем своевременность. Своевременность важнее.
Подход «выбор лучшего источника» был популярен в MDM/DQ решениях конце девяностых и начале нулевых.
Сейчас решения учитывают «информационную ценность». Оценивается корректность данных (валидность) и актуальность. На основе этих показателей выносится решение какой из двух адресов брать, а какой нет.
При этом в зависимости от типа сравниваемых объектов выбор может склоняться то в сторону «правильный лучше чем актуальный», то «пусть не актуальный, зато правильный»
И второе
▍При возможности исключайте ручной ввод данных и предлагайте оператору или пользователю выбрать значение из выпадающего списка.
С точки зрения первичного ввода — это упрощение, но «списки» имеют тонкий момент. Ошибка в выборе значения списка неисправима. Человеческий фактор опечаток снижается (такие ошибки исправляем), но появляется новый тип ошибок, который исправить невозможно. Чтобы это предотвратить приходится встраивать проверки в интерфейс ввода на непротиворечивость, а это не всегда возможны технически и логически тоже иногда бывает. Если данные ценные то поможет только двойной ввод, а это дорого.
0
А где 5П кроме заголовка?
0
К сожалению, не все данные могут быть даже условно «качественными». А идеальные данные, с точки зрения характеристик указанных в этой статье, вообще встречаются довольно редко. Критически важным тут становится соблюдение методологий сбора и обработки конкретных типов данных. Например, для проведения простых сельскохозяйственных опытов, с применением методов математической статистики, необходимо соблюдение достаточно большого количества условий. Начиная от способов и методов посадки растений, заканчивая выбором подходящих статистических критериев оценки достоверности полученных результатов. И это только в сельском хозяйстве, где ошибка — это только потраченное время и возможная потеря денег в будущем. А если взять область медицины? Где некорректно собранные и проанализированные данные могут быть причиной, например неправильного диагноза.
0
Sign up to leave a comment.
«5П»: О качестве данных и распространенных ошибках при их сборе