А поиск по названию статьи основан тоже на этом алгоритме? А то я смотрел там в оригинальной версии какие-то очень похожие на MD5 контрольные суммы в таблице лежат… Это вообще что?
Я не понял про md5 можно уточнить? И что имеется в виду под оригинальной версией? Я использовал ту формулу, которая приведена в википедии. Там в принципе все расписано, в том числе и значния коэфициентов, я лишь хотел обратить внимание на 2-а аспекта его использования, которые бросились мне в глаза. Относительно поиска по заголовкам, есть алгоритм BM25F я пока детально не изучал его, но по тому что успел понять, он как раз учитывает вхождение в title а также в анкоры внешних ссылок. Я думаю там используются весовые коэфициенты, которые увеличивают вес слов в том же заголовке и внешних ссылках.
Выложил xls файл со всеми формулами. Обратите внимание, что BM25 это не просто теория, его можно реально применять, например, при поиске по своему сайту, своей базе документов и т.д. В поисковых системах он уже не применяется в исходном виде, поскольку там релевантность зависит от частоты вхождения слова в документ, естественно, чем выше эта частота чем больше релевантность. Живым примером использования этого алгоритма можно назвать тот же spynx — тут
Алгоритм BM25