Как стать автором
Обновить

Устройство поисковых систем: базовый поиск и инвертированный индекс

Время на прочтение24 мин
Количество просмотров24K
Всего голосов 37: ↑37 и ↓0+37
Комментарии6

Комментарии 6

Это всё на примере Lucene. А есть ещё Sphinx, может там тоже есть интересные идеи?

С исходным кодом Tantivy/Lucene я работал, а со Sphinx'овым — нет. Поэтому такой перекос в статье. Кроме того, Sphinx последних версий есть только в виде бинарников, shodan унес его разработку в Авито. И что там за интересные идеи теперь можно только дизассемблером узнать.


Если нужна парочка интересных идей кроме уже реализованных в Lucene, то их есть у меня. Для изучения схем компрессии посмотрите документацию проекта PISA. Там же можно подглядеть дальнейшее развитие алгоритма BMW.

Если интересно, статья про активно разрабатываемый форк Sphinx'а тут https://habr.com/ru/post/541126

Есть еще прекрасный технический блог от людей кто построил свой независимый поисковый движок — https://0x65.dev/ — правда с предсказуемым результатом (потратили несколько сотен миллионов долларов, был очень странный маркетинг, поиск работал, но отставал сильно)

Круто, спасибо! Ничего про них не знал, интересно будет почитать.


Tantivy живет, основной мейнтейнер аж ушёл из Google, чтобы посвятить своему движку больше времени.

Статья просто пушка, спасибо!
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории