Результаты поиска по запросу «[fulltext search]» / Хабр

Публикации Хабы Компании Пользователи Комментарии

olegator99 23 апр 2018 в 00:23

Поиск по сайту с Reindexer — это просто. Или как сделать «instant search» по всему Хабрахабр-у

10 мин

13K

Высокая производительность*Веб-разработка*Поисковые технологии*Open source*Go*

Туториал

Всем привет,

В предыдущей статье я писал о том, что мы сделали новую in-memory БД — быструю и с богатыми функциональными возможностями — Reindexer.

В этой статье хочу рассказать как при помощи Reindexer можно реализовать полнотекстовый поиск по сайту, написав минимум application кода.

Вообще, полнотекстовый поиск по сайту — эта важная фича, в наше время, обязательная, для любого интернет сайта. От качества и скорости работы поиска зависит
как быстро пользователи найдут интересующую их информацию или товары, которые они планируют приобрести.

Читать дальше →

+23

opium 16 июл 2012 в 18:16

Улучшаем релевантность поиска в sphinxsearch

4 мин

58K

Поисковые технологии*Sphinx*

Из песочницы

Recovery Mode

Sphinxsearch является поисковым движком для быстрого fulltextsearch, может получать данные из mysql, oracle и mssql, может выступать сам хранилищем(realtime индексы). Также sphinx имеет режим работы через api и через sphinxql — аналог протокола sql(с некоторыми ограничениями), что позволяет подключить поиск через sphinx на сайте с минимальным изменением кода. Это один из немногих великих, крупных и открытых проектов разработанный в России. На моей жизни я видел как sphinx обрабатывает порядка 100-200 поисковых запросов на 2 миллиона записей из mysql и при этом сервер свободно дышал и его не тошнило, mysql начинает умирать уже на 10 запросах в секунду на аналогичном конфиге.

Основная проблема документации sphinx на мой взгляд малое количество примеров для большинства интересных настроек, сегодня постараюсь рассказать в примерах о них. Опции которые я затрону касаются в основном алгоритмов и вариаций поиска. Все кто плотно работает со sphinx не узнают ничего нового, а новички надеюсь смогут улучшить качество поиска на своих сайтах.

Sphinx содержит две независимые программы indexer и searchd. Первый строит индексы по данным взятым из базы данных, второй производит поиск по построенном индексу. А теперь перейдем к настройкам поиска в sphinx.

morphology

Позволяет задать морфологию слов, я использую только стемминг. Алгоритм стемминга с помощью набора правил для языка обрезает окончания и суффиксы. Стемминг не использует готовые базы слов, а основан на определенных правилах обрезания для языка, что делает его маленьким и быстрым, но это же и добавляет ему минусы так как он может совершать ошибки.

Пример нормализации слова стеммингом на русском.
Слова “яблоко”, “яблока”, “яблоку” будут обрезаны в “яблок” и любой поисковый запрос с вариацией слова “яблока” будет тоже нормализован и найдет записи со словами которые были описаны выше.

Читать дальше →

+31

Kilor 17 дек 2020 в 23:50

SQL HowTo: префиксный FTS-поиск с релевантностью по дате

4 мин

3.3K

Блог компании ТензорPostgreSQL*SQL*Алгоритмы*ERP-системы*

В нашем СБИС, как и в любой другой системе работы с документами, по мере накопления данных у пользователей возникает желание их "поискать".

Но, поскольку люди — не компьютеры, то и ищут они примерно как "что-то там такое было от Иванова или от Ивановского… нет, не то, раньше, еще раньше… вот оно!"

То есть технически верное решение — это префиксный полнотекстовый поиск с ранжированием результатов по дате.

Но разработчику это грозит жуткими проблемами — ведь для FTS-поиска в PostgreSQL используются «пространственные» типы индексов GIN и GiST, которые не предусматривают «подсовывания» дополнительных данных, кроме текстового вектора.

Остается только грустно вычитывать все записи по совпадению префикса (тысячи их!) и сортировать или, наоборот, идти по индексу даты и фильтровать все встречающиеся записи на совпадение префикса, пока не найдем подходящие (как скоро найдется «абракадабра»?..).

И то, и другое не особо приятно для производительности запроса. Или что-то все же можно придумать для быстрого поиска?

Читать дальше →

rednaxi 21 сен 2010 в 18:04

Создание ознакомительного поискового движка на Sphinx + php

5 мин

103K

Sphinx*

Туториал

Предыстория

Раньше для поиска по сайту мы использовали обычный fulltext поиск. Но в определенный момент он перестал нас устраивать и мы решили опробовать альтернативную технологию поиска: Sphinx. К сожалению, у сфинкса совсем нет русской документации, поэтому эта статья — аналог статьи Build a custom search engine with PHP, только на русском языке и для моего локального окружения (windows 7, mysql/php)
Статья состоит из 4 частей:

Краткий рассказ про подготовку базы для поиска.
Рассказ про первоначальную установку и настройку сфинкса
Индексирование базы и тестовый поиск из командной строки
Тестовый поиск из php

Читать дальше →

+64

geoolekom 12 мар 2019 в 09:09

Готовим полнотекстовый поиск в Postgres. Часть 1

7 мин

76K

Веб-разработка*PostgreSQL*Администрирование баз данных*

Туториал

UPD. Часть 2

Эта статья — первая из небольшой серии статей о том, как оптимально настроить полнотекстовый поиск в PostgreSQL. Мне пришлось недавно решать подобную задачу на работе — и я был очень удивлен отсутствию хоть сколько-нибудь вменяемых материалов по этому поводу. Мой опыт борьбы под катом.

Читать дальше →

+25

geoolekom 12 мар 2019 в 18:47

Готовим полнотекстовый поиск в Postgres. Часть 2

7 мин

20K

Веб-разработка*PostgreSQL*Администрирование баз данных*

В прошлой статье мы оптимизировали поиск в PostgreSQL стандартными средствами. В этой статье мы продолжим оптимизацию с помощью индекса RUM и проанализируем его плюсы и минусы в сравнении с GIN.

Читать дальше →

+36

brujeo 23 июл 2011 в 15:59

Быстрый полнотекстовый поиск ElasticSearch

6 мин

218K

Веб-разработка*

Из песочницы

При разработке высоконагруженных сайтов или корпоративных систем частенько возникает проблема с разработкой быстрого и удобного поискового движка. Ниже перечислены наиболее важные, на мой взгляд, требования к такому движку:

Скорость
Простота установки и настройки
Цена (желательно бесплатно и с открытым кодом)
Обмен информацией в формате JSON (по HTTP)
Масштабируемость (возможность распределения на несколько серверов)
Индексация в режиме реального времени
Multi-tenancy (гибкость в настройках под индивидуального пользователя)
Возможность переноса системы в облако

Хочу рассказать вам о новом поисковом движке Elasticsearch, который полностью удовлетворяет всем этим требованиям. В статье будет краткое описание, ссылка на авторитетную презентацию, а также описание установки и работы с ним.

Читать дальше →

+57

Epsiloncool 13 июл 2022 в 18:32

Как работает быстрый текстовый поиск для WordPress

7 мин

6.5K

WordPress*Поисковые технологии*Open source*PHP*MySQL*

Много лет мы (команда Epsilon Web Manufactory) занимались разработкой сайтов и разных приложений на заказ, в основном это были проекты на базе популярного движка WordPress. И как правило самой сложной и интересной задачей всегда был полнотекстовый поиск. Если на сайте были только статьи и какие-то кастомные типы записей, содержащие заголовок и основной текст, то достаточно было использовать встроенный класс WP_Query, который с небольшой подстройкой входных параметров отлично справлялся с задачей. Но это было лет 10-12 назад.

+15

olemskoi 14 дек 2016 в 08:49

Быстрый полнотекстовый поиск в Redmine

2 мин

6.9K

Блог компании СлёрмHelp Desk Software*Управление проектами*

У нас используется система управления проектами и задачами Redmine. Мы продолжаем допиливать ее под свои нужды, чтобы повысить удобство работы и расширить функционал. Очередной задачей стало ускорение поиска.

С тех пор как количество задач в Redmine выросло до нескольких сотен тысяч, время на обработку поискового запроса стало занимать десятки секунд, что недопустимо долго для нас. Поэтому мы решили внедрить полнотекстовый поиск на основе Elasticsearch. Про это и будет данный пост.

Читать дальше →

+12