Comments 10
А поиск по названию статьи основан тоже на этом алгоритме? А то я смотрел там в оригинальной версии какие-то очень похожие на MD5 контрольные суммы в таблице лежат… Это вообще что?
0
Я не понял про md5 можно уточнить? И что имеется в виду под оригинальной версией? Я использовал ту формулу, которая приведена в википедии. Там в принципе все расписано, в том числе и значния коэфициентов, я лишь хотел обратить внимание на 2-а аспекта его использования, которые бросились мне в глаза. Относительно поиска по заголовкам, есть алгоритм BM25F я пока детально не изучал его, но по тому что успел понять, он как раз учитывает вхождение в title а также в анкоры внешних ссылок. Я думаю там используются весовые коэфициенты, которые увеличивают вес слов в том же заголовке и внешних ссылках.
0
Плохой тон писать формулу и не пояснять переменные. Перемножаем слонов на слонов?
Статья в википедии: Okapi BM25.
Спасибо за практические примеры.
Статья в википедии: Okapi BM25.
Спасибо за практические примеры.
+2
Выложил xls файл со всеми формулами. Обратите внимание, что BM25 это не просто теория, его можно реально применять, например, при поиске по своему сайту, своей базе документов и т.д. В поисковых системах он уже не применяется в исходном виде, поскольку там релевантность зависит от частоты вхождения слова в документ, естественно, чем выше эта частота чем больше релевантность. Живым примером использования этого алгоритма можно назвать тот же spynx — тут
0
Автор забыл добавить, что данный алгоритм давно уже используется в локальных поисковиках: Lucene & Sphinx
многим будет полезно о нём знать…
когда делал локальный поисковик по файлам, к сожалению, стандартных реализаций я не нашел, пришлось изобретать велосипед.
многим будет полезно о нём знать…
когда делал локальный поисковик по файлам, к сожалению, стандартных реализаций я не нашел, пришлось изобретать велосипед.
0
>Позже изучая научные труды сотрудников Яндекса
А где это добро можно посмотреть? Если в сети можно ссылку?
Заранее спасибо.
А где это добро можно посмотреть? Если в сети можно ссылку?
Заранее спасибо.
0
Сравнительный анализ методов определения нечетких дубликатов Сегалович — download.yandex.ru/company/paper_65_v1.rtf
+1
Спасибо, но я спрашивал про это — events.yandex.ru/events/publications/
0
Sign up to leave a comment.
Алгоритм BM25