Pull to refresh
0
0
Андрей @iTYR

User

Send message

Быстрый поиск совпадений объектов по их контрольным суммам на примере поиска дублирующихся изображений

Reading time4 min
Views4.3K
Исходные данные:
  • набор объектов обладающих аттрибутами
  • возможность приблизительно точно идентифицировать объект сопоставив ему контрольную сумму.


Конечная цель:
  • получить списки объектов по которым легко выявить совпадения.

Идея алгоритма заключается в создании суффиксного дерева каждый узел которого хранит в себе один байт контрольной суммы. При получении контрольной суммы очередного объекта мы начинаем движение с корня дерева вглубь, если мы не находим узел для следующего байта в последовательности, то создаем его. Достигнув окончания контрольной суммы и создав конечный узел запишем в него параметры объекта. В итоге мы получим список конечных узлов, если в конечном узле лежит описание более одного объекта мы предполагаем что эти объекты идентичны.
Читать дальше →
Total votes 23: ↑14 and ↓9+5
Comments7

Information

Rating
Does not participate
Date of birth
Registered
Activity