Как стать автором
Поиск
Написать публикацию
Обновить

Десять самых распространённых проблем с качеством данных и способы их устранения

Время на прочтение5 мин
Количество просмотров4.7K
Всего голосов 2: ↑1 и ↓1+1
Комментарии7

Комментарии 7

Распространённые проблемы с качеством данных
2) Дублирование данных

3) Несогласованность данных
...

Данные хранятся как правило в базах данных, большинство из которых являются реляционными базами данных. Эти базы данных представляют набор таблиц, удобно и просто. Но порой сталкиваешься с тем, что создатели этих баз данных не проводят их нормализацию. Когда задаёшь вопрос: "В какой нормальной форме у вас база данных", то на тебя смотрят выпученными глазами.
Если нет ответа на заданный вопрос, то смело можно утверждать, что в БД есть (или будут) несогласованные и избыточные данне.
Кстати, на Хабре есть хорошая статья по нормализации "Нормализация отношений. Шесть нормальных форм".

Несогласованность бывает скорее из-за того, что данные собирают не из одной БД, а сразу из нескольких. И как данные в этом случае нормализовать и согласовать между собой - вопрос не всегда тривиальный.

Так чтобы этого не было проектируйте и создавайте РАСПРЕДЕЛЁННЫУЮ базу данных.

И хранить в ней данные всех производственных систем? Это только в теории так бывает )

Какая теория! Это голая практика!

Когда задаёшь вопрос: "В какой нормальной форме у вас база данных", то на тебя смотрят выпученными глазами.

Это нормально)) Ты же сам ссылку привёл на статью. В одной и той же БД данные могут быть в разных нормальных формах.

а ещё не плохо иметь либо покупную (3rd party tool) либо свою (in-house build) систему Контроля Качества Данных (Data Quality Monitoring system).

в bloody enterprise как правило используют либо первый либо второй подход.

ваш Data Quality Specialist....

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации