Urevic Feb 16 2009 at 18:53

Определение нечетких дубликатов для коротких документов

3 min

7.4K

Website development*

+56

Comments 42

Urevic Feb 16 2009 at 19:58

Забыл еще добавить идеи по улучшению алгоритма. Слова текста неплохо было бы нормализовать с помощью морфологического анализатора. И еще хорошо бы учитывать глобальную частоту встречаемости слова, т. е. не учитывать общеупотребительные слова и давать буст редким словам при расчете «степени схожести».

Q2W Feb 16 2009 at 21:48

> морфологического анализатора
Рекомендую вот этот модуль морфологического анализа (http://aot.ru/download.php). Сам использую в поисковом проекте, доволен.

> т. е. не учитывать общеупотребительные слова
Есть общедоступные списки т.н. стоп-слов — предлогов, союзов и проч. Могу выложить свой, если не найдёте. Поисковики, например, их напрочь игнорируют в запросах.

> WHERE (word_hash = %cur_doc_hash1% OR word_hash = %cur_doc_hash2% OR… )
Лучше WHERE word_hash IN (%cur_doc_hash1%, %cur_doc_hash2%,..) — как минимум логичней смотрится, как максимум возможно СУБД это лучше оптимизирует, т.к. задача более узкая.

Urevic Feb 16 2009 at 21:57

> Рекомендую вот этот модуль морфологического анализа (http://aot.ru/download.php)

Да, знаю про этот модуль и именно его планирую использовать.

> Есть общедоступные списки т.н. стоп-слов

Список стоп-слов у меня есть, спасибо. Но тут я хотел сказать немного о другом. Например, у меня документы — это объявления, там часто встречаются слова типа продам, куплю и т.д. Было бы логично их игнорировать при анализе или учитывать, но с меньшим весом.

> WHERE word_hash IN

О, спасибо. Все время забываю про эту конструкцию, а она действительно быстрее работает по крайней мере в MySQL.

Q2W Feb 16 2009 at 22:14

> учитывать глобальную частоту встречаемости слова, т. е. не учитывать
> общеупотребительные слова
Мысль верная, но по опыту сильно усложняет архитектуру, производительность, и вообще жизнь.

developer Feb 18 2009 at 08:46

да и генерировать ее удобнее на самом деле: implode.

zaartix Feb 17 2009 at 09:45

а можно попросить выложить списки стоп-слов?

Urevic Feb 17 2009 at 10:12

Вот хороший: snowball.tartarus.org/algorithms/russian/stop.txt (только кодировка там koi8-r, но я думаю перекодировать не проблема)

kshiian Dec 17 2012 at 20:05

Список стоп слов для украинского и русского языков есть в Яндекс Сервер

casey Feb 17 2009 at 22:10

Так ведь в MySQL не работает WHERE IN () с паттернами ("%a%")? Какую СУБД вы используете?

Urevic Feb 17 2009 at 22:28

%cur_doc_hash1% — это как бы переменная, которую вы должны подставить в запрос в скрипте.

developer Feb 18 2009 at 08:52

я например сделал врапер для MySQL, который использует синтаксис плайс холдеров
$db->query('select id, ?# from ?# where id = ?d ', 'text', 'table', 10);
далее на плайсхолдеры накладываются фильтры:? — просто как текст берется в кавычки и эскейпится
?d приводится к числу
?# эскейпится и берется в обратные кавычки
?f — в число с точкой
?a — если числовой массив, то через запятую значения фильтрованные как? или если ассц массив то как пары ?# =? очень удобно в запросах класса where in (?a) — тут список или insert… set (?a) — тут ассоц массив

Если самому писать лень можете взять на dklab.ru, но мне там не нравится =)

ConstNW Feb 18 2009 at 08:05

> Поисковики, например, их напрочь игнорируют в запросах.

вы абсолютно в этом уверены?

Q2W Feb 18 2009 at 09:13

Хмм, ну год или два назад так и было, в этом я уверен.
Однако сейчас яндекс с гуглом стал давать разные результаты на запросы «краска для машины» и «краска машины».

При чём, что интересно, разница именно в сортировке результатов.

Так что спасибо за поправку, и извиняюсь за дезинформацию.

lakmus Feb 16 2009 at 20:06

Грамотно и полезно. Спасибо.

kompo Feb 17 2009 at 07:13

а алгоритмом определения нечетких копий документов для текстов побольше — не поделитесь? :)

Urevic Feb 17 2009 at 07:20

А вон в самом начале этого поста есть ссылка на алгоритм шинглов и его реализацию на пайтоне. И, кстати, можно попробовать модифицировать мой алгоритм, взять не 15, а побольше слов и выбирать не самые длинные слова, а самые высокочастотные. Вполне возможно, что это будет работать для длинных текстов тоже.

kompo Feb 17 2009 at 07:26

ох пардон, не увидел ссылку…

я в свое время пытался реализовывать алгоритм 3+5 отсюда, но что-то так пороху и не хватило…

sgzmd Feb 17 2009 at 07:19

Давно думаю эту мысль применимо к более коротким текстам (два-три слова), так, чтобы для малоотличающихся наборов слов значение хэш-функции было бы близким — но результатов (удовлетворительных) пока нету…

Urevic Feb 17 2009 at 07:26

Может soundex попробовать? ru.wikipedia.org/wiki/Soundex

sgzmd Feb 17 2009 at 07:29

он и используется в текущей реализации. принципиальное ограничение — только английский.

Urevic Feb 17 2009 at 07:42

А русский текст вы в транслит перегоняете? Неужели это плохо работает? Я думал, что именно так поисковики опечатки поправляют в запросах.

UFO landed and left these words here

Urevic Feb 17 2009 at 08:57

Да, вот кстати ссылка на тот пост про русский soundex habrahabr.ru/blogs/php/28752/

sgzmd Feb 17 2009 at 09:02

Проблема сложнее и комплекснее, чем фонетический поиск — вообще говоря, количество поддерживаемых языков малоограничено, по сути, это как минимум все индоевропейские языки (в более узком смысле — вся романо-германская группа). Поэтому единого решения пока нет.

sgzmd Feb 17 2009 at 07:30

точнее, используется Double MetaPhone, улучшенная версия этого алгоритма, но это все равно не спасает.

zaartix Feb 17 2009 at 08:01

P.S. Это мой первый топик на хабре, так что не бейте больно если что-то не так.

Эта фраза уже по-моему давно у всех ассоциируется примерно с: -«отсыпьте кармы плз чуток» :)

В конкретно этом посте с удовольствием это делаю.

Вообще очень хорошая тема поднята, возможно, даже, имеет смысл сделать отдельный блог — fuzzy logic или как-то более понятно

zaartix Feb 17 2009 at 09:50

это практически первый мой коммент, просьба не минусовать сильно

tapin13 Feb 17 2009 at 08:56

Исходник на PHP + возможность проверки 2-х текстов на схожесть utext.rikuz.com/

Skaizer Feb 17 2009 at 09:01

Отличается от моей реализации на пайтоне.

Проблема сравнения коротких текстов заключается в нехватке материала (шинглов) для сравнения. Ставится задача — увеличить их.

По поводу закольцовки текста — я несколько несколько с вами не согласен, можно получить хорошие результаты уменьшив дллину шингла (3-5 слов).

Так же в моей реализации для сравнения коротких текстов можно разбивать текст на шинглы не по словно, а посимвольно, например по 10 символов. При хорошей канонизации текста — результат отличный!

А в целом благодарю за материал — очень интересно!

el777 Feb 17 2009 at 09:47

А где можно посмотреть на вашу реализацию?

Skaizer Feb 17 2009 at 09:51

Так ссылка в начале этого поста на мою статью :)
www.codeisart.ru/python-shingles-algorithm/

Urevic Feb 17 2009 at 10:21

> По поводу закольцовки текста — я несколько несколько с вами не согласен

Мне просто кажется, что это не совсем разумное использование ресурсов сервера. Т.е. если у нас почти все документы длинные и только несколько коротких, то это хорошее решение, чтобы не писать отдельный алгоритм под короткие. Но когда все короткие, то по идее мы будем делать много лишних вычислений.

> разбивать текст на шинглы не по словно, а посимвольно, например по 10 символов.

Да, конечно, есть варианты как адаптировать шинглы под короткие тексты. Я бы даже сказал, что у меня по сути и есть вариация на тему шинглов. Только чешуйки не наслаиваются друг на друга ;)

taskmgr Feb 17 2009 at 09:23

А зачем в таблице хешей слов использовать суррогатный ключ, занимающий треть таблицы? Не лучше бы так:

taskmgr Feb 17 2009 at 09:24

CREATE TABLE `items_hashes` (
`doc_id` int(11) NOT NULL,
`word_hash` int(11) NOT NULL,
PRIMARY KEY (`doc_id`,`word_hash`)
);
И в редком случае, когда хеши двух разных слов совпадают, не помещать дубликат в таблицу.

Urevic Feb 17 2009 at 10:22

Упс, действительно. Полностью согласен, так лучше.

LDEV Feb 17 2009 at 10:27

У меня сейчас в проекте на миллион страниц алгоритм попроще: текст без тегов, берутся все слова > 4 символов в строчных буквах, сортируются по алфавиту, склеиваются в строчку и md5 на неё. Получается 32 символа подписи на страницу.

На миллион страниц порядка 2% выявленных дубликатов. Алгоритм обрабатывает всю базу меньше минуты, даже учитывая нахождение базы на другом компьютере.

DenisO Feb 17 2009 at 22:03

Мне кажется что сортировка по алфавиту — лишняя. Зачем она тут? Может имелось ввиду удаление слов-дубликатов?

LDEV Feb 17 2009 at 22:05

чтобы предложения выстраивались в одну цепочку. Да, и array_unique тоже там же, забыл :)

glider Feb 19 2009 at 11:35

Тогда получается, что разница в одно слово сразу этот хеш порушит, не? То есть нечеткий он получается только относительно слов из <= 4 букв.

UFO landed and left these words here

brook Feb 17 2009 at 10:36

Я бы добавил пару замечаний — складывая длинные слова я полагаю вы пытаетесь выдрать те слова которые характерны для текущего текста?

Мне кажется было бы чуть чуть лучше делать так:

1) Тянуть не сами слова а их стеммы.
2) Не просто самые большие слова — а самые частые слова. В данном случае вы сформируете коллекцию ключевых слов. (Важно — нельзя забывать про стоп-лист, а также — словарь синонимов).

darkk Feb 17 2009 at 14:11

Хех, делал такой трюк for fun — в IRC на канале викторина была: бот выдаёт определение, надо ответить, что за термин определяется.

Недолго думая, сделал из трёх энциклопедических словарей почти такую же БД (даже словоформы не использовал, не говоря уже о стоп-словах и синонимах), написал подобный запрос:

SELECT COUNT(definer_id) AS matches, word FROM defs JOIN words ON (term_id = word_id) 
WHERE definer_id IN(SELECT word_id FROM words WHERE word IN (%(word_list)s)) AND LENGTH(word) = %(word)s
GROUP BY term_id,word HAVING COUNT(definer_id) > 1 ORDER BY matches DESC LIMIT 10

Было смешно смотреть на IRC-шников, удивлявшихся скорости ответа в полсекунды :-)