Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Казнить, нельзя помиловать.
Казнить нельзя, помиловать.
следующие два текста совсем близки геометрически
функция отображения в N-мерное пространство слишком сильно размазывает полезную информациюПо-видимому Вы правы, и предложенный метод сработает только в случае коротких текстов и малом допустимом расстоянии Левенштейна. Однако на имеющейся базе скопления точек в одном кубе оказались редким исключением; как ни странно, в количестве букв довольно много информации.
Одной букве будет соответствовать два числа: число вхождений в текст (как и сейчас) и сумма расстояний этой буквы от начала текста.Боюсь это соображение я не понял. Получается, что
Не проще ли было обойтись методом наименьших квадратов вместо R-tree?
метод сработает только в случае коротких текстов
и расстояние между точками получается приличное
метод наименьших квадратов
стоило воспользоваться стандартными методами кластерного анализа
Поиск почти-дубликатов и геометрия