Knjazh Oct 31 2017 at 02:46

«5П»: О качестве данных и распространенных ошибках при их сборе

6 min

8.6K

Big Data*Project management*Product Management*Reading room

Recovery Mode

Comments 7

ALIron Oct 31 2017 at 10:38

Содержательно. Спасибо.
Не соглашусь с двумя утверждениями.

Так если адрес клиента присутствует в двух базах, то он должен совпадать. В противном случае необходимо выбрать один источник достоверным и игнорировать остальные до исправления ошибок.

Выбор одного источника блокирует обновление из других.
Предсказать где появится следующее обновление не можем.
В борьбе за однозначность теряем своевременность. Своевременность важнее.
Подход «выбор лучшего источника» был популярен в MDM/DQ решениях конце девяностых и начале нулевых.
Сейчас решения учитывают «информационную ценность». Оценивается корректность данных (валидность) и актуальность. На основе этих показателей выносится решение какой из двух адресов брать, а какой нет.
При этом в зависимости от типа сравниваемых объектов выбор может склоняться то в сторону «правильный лучше чем актуальный», то «пусть не актуальный, зато правильный»

И второе

▍При возможности исключайте ручной ввод данных и предлагайте оператору или пользователю выбрать значение из выпадающего списка.

С точки зрения первичного ввода — это упрощение, но «списки» имеют тонкий момент. Ошибка в выборе значения списка неисправима. Человеческий фактор опечаток снижается (такие ошибки исправляем), но появляется новый тип ошибок, который исправить невозможно. Чтобы это предотвратить приходится встраивать проверки в интерфейс ввода на непротиворечивость, а это не всегда возможны технически и логически тоже иногда бывает. Если данные ценные то поможет только двойной ввод, а это дорого.

Knjazh Oct 31 2017 at 15:00

Нужно стремиться к лучшему, но понимать, что идеального результата, увы, не достичь.
Главное, правильно расставить приоритеты, для одной задачи будет важнее своевременность, а для другой — однозначность.
А по спискам — можно уменьшить количество ошибок введением подтверждения правильности данных.

ALIron Oct 31 2017 at 15:17

Бизнес обычно не предоставляет выбор своевременный или однозначный. Просят сразу и то и другое.
Ввод подтверждения правильности это как? Окошко с кнопкой «Ок»? их никто не читает.

Knjazh Oct 31 2017 at 23:37

Окошко с кнопкой кто-то, но будет читать. Лучше так, чем никак.

a-tk Oct 31 2017 at 12:39

А где 5П кроме заголовка?

Knjazh Oct 31 2017 at 14:49

5П никак не связанны с 5С, надеюсь, не ввел вас в заблуждение.
А так про них во втором абзаце:

Для достоверной аналитики должны быть соблюдены все «П» данных: правильные, правильно собранные, собранные в правильной форме, в правильном месте и в правильное время.

AKimovd Oct 31 2017 at 14:50

К сожалению, не все данные могут быть даже условно «качественными». А идеальные данные, с точки зрения характеристик указанных в этой статье, вообще встречаются довольно редко. Критически важным тут становится соблюдение методологий сбора и обработки конкретных типов данных. Например, для проведения простых сельскохозяйственных опытов, с применением методов математической статистики, необходимо соблюдение достаточно большого количества условий. Начиная от способов и методов посадки растений, заканчивая выбором подходящих статистических критериев оценки достоверности полученных результатов. И это только в сельском хозяйстве, где ошибка — это только потраченное время и возможная потеря денег в будущем. А если взять область медицины? Где некорректно собранные и проанализированные данные могут быть причиной, например неправильного диагноза.

Show the best of all time