Comments 1
Левенштейн весьма коварен есть, особенно на коротких строках. Ну и его нужно модифицировать, чтобы он за разные цифры сильно наказывал, ему же всё-равно одна буква безграмотно написана или в каком-то id разница на одну цифру, а это, мягко говоря, совсем неправильно ) Так что Левенштейна можно использовать только для какого-то предварительного подбора кандидатов в дубликаты, который потом глазами человек просматривает. В противном случае нужно что-то более осмысленное использовать.
Sign up to leave a comment.
Практика использования алгоритмов машинного обучения для нормализации данных НСИ в корпоративных системах