Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Как я описывал выше, сравнивать элементы каждого из 84х массивов между собой — ресурсоемко. Для увеличения производительности выполним случайную выборку контрольных сумм для каждой из 84х строк двумерного массива, для обоих текстов. Например, будем выбирать самое минимальное значение из каждой строки.
Пример: 100 шинглов * 84 хеша
8400 операции сравнения
поиск минимума 99 сравнений * 84 хеша + 84сравнения итого 8400 :)
Сравнить два массива по 100 шинглов => 10000 операций сравнения
у Зеленкова с Сегаловичем тоже обоснования как я понимаю нет
боюсь что данные выкладки являются «тыканием пальцем в небо»
С точки зрения банальной логики сравнение опосредованных сумм, гораздо хуже чем простое сравнение количества ключевых слов и фраз. Такой вес будет точнее показывать тематику документа и позволит обходить простые уловки типа переставления слов или предложений местами.
так чем почти дубликат где два существительных поменяны местами отличается от других «почти дубликатов»? :)
Поиск нечетких дубликатов. Алгоритм шинглов для веб-документов