Комментарии 7
Распространённые проблемы с качеством данных
2) Дублирование данных
…
3) Несогласованность данных
...
Данные хранятся как правило в базах данных, большинство из которых являются реляционными базами данных. Эти базы данных представляют набор таблиц, удобно и просто. Но порой сталкиваешься с тем, что создатели этих баз данных не проводят их нормализацию. Когда задаёшь вопрос: "В какой нормальной форме у вас база данных", то на тебя смотрят выпученными глазами.
Если нет ответа на заданный вопрос, то смело можно утверждать, что в БД есть (или будут) несогласованные и избыточные данне.
Кстати, на Хабре есть хорошая статья по нормализации "Нормализация отношений. Шесть нормальных форм".
Несогласованность бывает скорее из-за того, что данные собирают не из одной БД, а сразу из нескольких. И как данные в этом случае нормализовать и согласовать между собой - вопрос не всегда тривиальный.
Когда задаёшь вопрос: "В какой нормальной форме у вас база данных", то на тебя смотрят выпученными глазами.
Это нормально)) Ты же сам ссылку привёл на статью. В одной и той же БД данные могут быть в разных нормальных формах.
а ещё не плохо иметь либо покупную (3rd party tool) либо свою (in-house build) систему Контроля Качества Данных (Data Quality Monitoring system).
в bloody enterprise как правило используют либо первый либо второй подход.
ваш Data Quality Specialist....
Десять самых распространённых проблем с качеством данных и способы их устранения