Как стать автором
Обновить

Комментарии 4

Все бы хорошо, но есть такая наука - наука о данных.

На всякий случай повторю, что проблемы с качеством данных делятся на человекозависимые или машиннозависимые. Человекозависимые делятся на умышленные и неумышленные.

Машиннозависимые делятся на заметно большее число категорий: операционные, статистические, ключевые, проблемы канальные, проблемы с носителями, проблемы со средами передачи/приема, проблемы с вычислительными средами, проблемы со структурой сбора и др.

Человекозависимые до массовой компьютеризации исследовались достаточно полно. Особенно умышленные. Это могут быть искажения документов, сигналов, кодов, ошибки, вносимые устройствами ввода. Неумышленные - стирание ключевой информации, проникновение помех в документы, подделка либо подмена адресной информации при невынужденных ошибках сортировки и адресации.

На основании того или иного рода ошибок написано множество детективных романов и снято множество фильмов. А в самом обыкновенном винчестере на выходе стоит кодер-декодер кода Рида-Соломона. Даже в нашем человеческом мозгу есть структуры, которые могут бороться с неверной и неполной информацией.

Ещё трава есть?))

Очень ценные советы. Если хотите покушать, сходите покушать.

  1. Если у вас пустые значения так где их не должно быть, запретите пустые значения там где их не должно быть.

  2. Если кто-то пишет неверные данные(по умолчанию) разберитесь кто это делает и попросите так не делать.

    По моему гениально.

Я бы еще добавил такие категории, как:

  • противоречивые данные, когда невозможно однозначно определить, что именно записано. Например, "труба пластиковая сталь 20"

  • множественные данные, когда в одной записи объединены сразу несколько. Например, Иванов Иван Иванович Петров Петр Петрович"

  • отсутствующие данные. Т.е. данные, которые должны быть, но по каким-то причинам отсутствуют. Например, записи, затерявшиеся где-то, или случайно удаленные без возможности их восстановления

Зарегистрируйтесь на Хабре, чтобы оставить комментарий