stab Mar 9 2011 at 10:38

MinHash — выявляем похожие множества

4 min

28K

Algorithms*

+30

Comments 19

NYMEZIDE Mar 9 2011 at 10:54

Попробовал посравнивать по вашей ссылке. Текст который был слева скопировал в правую часть. Сравнение = 1.
Удалил "," и "." (всего 9 штук) — получаю = 0.585

Даже удаление нескольких слов дает 0,9хх. Почему из-за знаков препинания резко снижается индекс?

stab Mar 9 2011 at 10:56

Потому что это так для поиграться сделано, на слова разбивается просто по пробелам. Знаки препинания как часть слова в этом случае воспринимаются или как отдельное слово.

NYMEZIDE Mar 9 2011 at 11:04

но ведь хеш отдельных слов в сумме не может из-за одного символа резко так снижать индекс?

Просто я реализовывал (когда еще был студентом) для себя алгоритм подобной задачи.
Требовалось перелопатить все Excel входные файлы и привязать кривой ввод данных, от сотрудников и в особенности сотрудниц, к справочникам которые были получены и систематизированы в прошлом.
Входные данные были это были названия городов, населенных пунктов, улиц и т.д.
и у меня «ул. Чкалова» и «ул Чкалова» давали совсем не = 0.45, а 0.9х

Но я реализовывал подругому.

Trept Mar 9 2011 at 11:13

В данной реализации слово, отличное на 1 символ — полностью другое слово, так что все верно.

stab Mar 9 2011 at 11:14

Вначале описан коэффициент Жаккара, у него именно такое поведение, плюс, не самые лучшие хэш-функции, на коротких словах плохо себя ведут.

Trept Mar 9 2011 at 11:10

Думаю, нужно добавить, что ошибка при вычислении метрики похожести по методу MinHash нефатальна, поскольку всегда возможно пересчитать оригинальную метрику для близких множеств, выявленных по MinHash.
Иначе говоря, MinHash здесь будет работать, как предварительный фильтр, снижающий вычислительные затраты.

SergeyM Mar 9 2011 at 12:50

MinHash — это алгоритм снижения размерности, а не алгоритм поиска похожих множеств. Он используется как дополнение для алгоритмов поиска тех самых похожих множеств, когда объем данных очень велик. Изначально его применили для алгоритма поиска дубликатов документов.

stab Mar 9 2011 at 12:56

А какие алгоритмы есть для поиска похожих множеств? Актуальная для меня тема.

SergeyM Mar 9 2011 at 13:27

1. MinHash
2. LSH (Locality-Sensitive Hashing)

Это основные методы, может сейчас еще какие есть, я не слежу. LSH используется для поиска сильно похожих множеств.

Trept Mar 9 2011 at 12:58

Это — вопрос терминологии, не более того.
Поясню: кому-то точности MinHash будет вполне достаточно, да и вопрос коллизий не всегда определяющий. В этом случае метод будет вполне полноценно искать похожие множества.

SergeyM Mar 9 2011 at 13:20

Это не различие терминологии, MinHash именно метод уменьшения размерности.
Простой пример: пусть у нас есть набор объектов, которые описываются большим вектором признаков, сравнивать такие объекты — это сравнивать их вектора-признаки, что очень дорого. Делаем чит — выбираем случайно и равновероятно объекты из этих векторов и получаем сокращенную сигнатуру, по которой и сравниваем все объекты. Вот эта случайная выборка и получается благодаря MinHash, потому что ее свойство — брать признаки равновероятно.

Trept Mar 9 2011 at 13:44

Я об этом способе использования MinHash выше написал.
А Ваш пример мой не опровергает, присмотритесь повнимательнее.
Кстати, интересно, свойство равновероятности для MinHash, хотя бы на уровне ассимптоты доказано?

SergeyM Mar 9 2011 at 14:25

Возможно ли равновероятно брать значения? В идеале да, на практике стремятся к идеалу. Когда писал свой диплом, то тестировал этот MinHash и результаты мне понравились — в среднем алгоритм работает идеально, есть дисперсия, значение которой зависит от числа функций.

Trept Mar 9 2011 at 14:54

Для оценки равномерности распределения одной дисперсии маловато будет.
Не стоит ли оценить близость самого распределения, например, через обычную метрику скалярного произведения?

SergeyM Mar 9 2011 at 15:37

Я завис :) Честно, не знаю как ответить на этот вопрос.

Trept Mar 9 2011 at 16:05

Например, построим гистограмму, и оценим ее отклонения от равномерности.

SergeyM Mar 9 2011 at 16:24

Думаю этого хватит

Trept Mar 9 2011 at 16:05

Например, построим гистограмму, и оценим ее отклонения от равномерности.

Trept Mar 9 2011 at 16:05

прошу прощения, не туда ответил