rednaxi 21 сен 2010 в 18:04

Создание ознакомительного поискового движка на Sphinx + php

5 мин

104K

Sphinx*

Туториал

+64

Комментарии 59

flypigs 21 сен 2010 в 18:20

Прикольно получается, когда переводят всё, включая опции:)

morphology = stem_ru

А английский вам не нужен?

rednaxi 21 сен 2010 в 19:58

Хочу отдельно заметить что это статья — нечто вроде руководства по быстрому старту, т.е. куда что прописать чтобы сфинкс начал работать и что то искать. Тонкости настройки — тема для отдельной статьи.

Но вообще лично мне не нужна английская морфология, у меня база полностью на русском.

flypigs 21 сен 2010 в 20:30

Вы уж извините :)

Цитата из статьи:
________________________
4. Поиск из php
Ну тут все просто. Проведем, например, поиск по запросу «Computer»
________________________

rednaxi 21 сен 2010 в 20:45

Да это пример, из командной строки я тоже на английском искал потому то на русском в командной строке кракозябры выходят

^{по секрету скажу что везде где в статье есть пример поиска по слову «computer» я на самом деле искал по запросу «газонная решетка»}

biotech 21 сен 2010 в 18:26

Спасибо! Как-то безуспешно искал вменяемый материал на русском по сфинксу…

Nc_Soft 21 сен 2010 в 18:46

И как у вас с буквой ё дела обстоят?
хинт www.sphinxsearch.com/forum/view.html?id=5401

rednaxi 21 сен 2010 в 19:59

Еще не столкнулся с этой проблемой, а уже знаю решение ;)

Спасибо!

dmitskevich 21 сен 2010 в 19:02

А у меня следующий вопрос — как Sphinx берет данные для индексирования? Он с каким то интервалом проходит весь view catalog? Или может тригеры какие нибудь вешает в базу на изменения данных? view catalog в конечном счете может оказаться очень большим. И в каком режиме Sphinx читает view catalog — dirty read? Или он лочит все таблицы?

clops 21 сен 2010 в 19:30

Это тема для отдельной статьи. Обычно держат два индекса: то что изменилось сегодня И всё остальное. Первый перестраивается раз в 5 минут и мёрджится со вторым раз в сутки.

WoZ 21 сен 2010 в 21:41

добавлю, что смотерть в сторону дельта-индекса

anycolor 22 сен 2010 в 01:19

RT, если быть точнее.

WoZ 22 сен 2010 в 16:28

это не одно и то же

aleks_raiden 21 сен 2010 в 21:45

уже есть Real-time index

flypigs 22 сен 2010 в 10:07

RT это все таки изврат для избранных с небольшой базой. Ибо хранится в памяти.

aleks_raiden 22 сен 2010 в 10:39

Вы не правы, он частично в памяти:
==
RT индексы внутри состоят из фрагментов. Один фрагмент хранится в оперативной памяти, который хранит последние обновления. Когда размер фрагмента в RAM превышает лимит, он сбрасывается на диск, а оперативная память очищается
==

flypigs 22 сен 2010 в 10:53

Да, моя ошибка.
Но все таки это еще новая вещь с кучей ограничений. Если нет проблем с оперативкой — вполне можно взять обычный индекс, благо там многое кешируется. Хотя интересно было бы сравнить результаты на большой базе.

А если есть нехватка памяти, то брать RT имхо не стоит, учитывая заявленные ограничения. Всё таки бетка.

aleks_raiden 22 сен 2010 в 10:58

Вот вам и тестирование — pro100pro.com/testirovanie-proizvoditelnosti-obychnyx-real-time-i-smeshannyx-indeksov-sphinx-search

flypigs 22 сен 2010 в 11:23

1) Зачем смешивать RT & обычные индексы? :) Распределенные вроде как нужны немножко для других целей — как правило для объединения нескольких индексов с разных машины.
2) Не указаны параметры индексов при тестировании. Обычный индекс можно загнать в ситуацию, когда он в памяти будет хранить минимум информации, а можно заставить хранить почти все. Разница в скорости и использовании винта будет на порядок.

Хотя результаты теста как раз и подтверждают мои слова чуть выше :)
RT — изврат для небольших баз. Хотя надеюсь в релизе оптимизируют.

eudj1n 21 сен 2010 в 19:32

Sphinx индексирует данные, когда вы запускаете indexer.
У нас он, например, запускается по крону в ночное время (основные индексы), и днём с часовым интервалов (дельта-индексы).

В любой момент через indexer --rotate-all можно обновить все данные.

flypigs 21 сен 2010 в 20:19

Для снижения нагрузки есть возможность настроить выборку интервалом:
WHERE ( id>=$start AND id записанного. дельта обновляется чаще.

два полученных индекса можно как мержить, так и оставить как есть (рекомендую второе. Сколько помню мерж — пару раз натыкался на глюки, на одной из версий помнится даже умирала база).

Отдельный геморой раньше был с удаленными записями. Но в последнем релизе придумали клевую фишку, и теперь как правило это делается просто и красиво

den_rad 21 сен 2010 в 19:19

Большую нагрузку создает Sphinx? Думаю его поставить на VDS

alfa 21 сен 2010 в 19:27

Да никакую нагрузку, только что в то время, как сканирует базу, но данную проблему легко решить, коннектясь к slave базе.

clops 21 сен 2010 в 19:29

Да и индекс строится очень быстро… у меня пять миллионов записей меньше чем за 10 минут проиндексировал.

alfa 21 сен 2010 в 19:32

Именно поэтому и нужно на slave стучаться, у меня база мускульная гигабайта четыре, поиск идет очень быстро, но тоже не одну и не две минуты, зачем-же насиловать основную базу. Я отдельный slave держу для сфинкса и бэкапа, очень удобно :)

eudj1n 21 сен 2010 в 19:33

А это смотря сколько данных :)

В нашем случае полное индексирование проходит минут за 40, при этом на Sphinx выделено что-то около гигабайта памяти.

Awake 5 окт 2010 в 14:07

а если не секрет, сколько данных у вас? :)

jil 21 сен 2010 в 19:24

А есть API для других ЯП? (желательно C#)
Может ссылку знаете?..

balaganski 21 сен 2010 в 19:35

Согласно документации:

Official native SphinxAPI implementations for PHP, Perl, Ruby, and Java are included within the
distribution package. Third party API ports and plugins exist for Perl, C#, Haskell, Ruby-on-Rails.

Кроме того, есть SphinxQL, эмулирующий протокол MySQL.

khaale 22 сен 2010 в 10:07

http://www.sphinxsearch.com/contribs.html, http://code.google.com/p/sphinx-dotnet-client/

user 21 сен 2010 в 20:51

глупый вопрос, может кто ответ тут подскажет: есть папка с 10 Гб пдф документов (вперемешку с док и эксель файлами, но это не так важно) и есть относительно свободный сервер с линуксом.
как мне поставить\настроить поиск по этим документам? главная проблема: не могу сформулировать нужные запросы для гугла. куда копать, с чего начать?

JayDi 21 сен 2010 в 21:05

Google Desktop:
desktop.google.com

ChemAli 20 сен 2013 в 16:26

1) pdf2xml
2) xml -> sphinx
3) profit

ahilles 21 сен 2010 в 21:22

Я для поиска по сайту использую DataparkSearch Engine

seriyPS 21 сен 2010 в 21:51

Ух ты… Похоже мощная штука. Я правильно понял что у него на выходе сразу HTML страничка и нету API?

Maxime 22 сен 2010 в 19:28

На выходе можно получить любой текстовый формат, в директории doc/samples дистрибутива лежит шаблон rss8.htm.en используя который можно выдавать результаты в RSS.

API нет.

seriyPS 21 сен 2010 в 21:58

А… так он чтоли сам сайт по http сканирует? Не базу?

Maxime 22 сен 2010 в 19:32

И по http может, и напрямую базу может.

Volgarastraport 21 сен 2010 в 22:26

Вы мне объясните soundex на сфинксе по русски работает?

seriyPS 21 сен 2010 в 23:26

Если вам для спеллчекера, то советую проверку по триграммам habrahabr.ru/blogs/sphinx/61807/ — работает прелестно плюс словарь строится на основе вашего же индекса

Volgarastraport 21 сен 2010 в 23:32

Мне нужно решить такую задачу.
Есть текстовый запрос с декстопной программы с самыми грубыми ошибками к БД.
Есть БД наиболее употребляемых слов русского языка (например, 100 тыс. слов).
Как получить из БД список слов максимально релевантных запросу?
Например, ввели «поардох» — получили «пароход, паровоз, порох»

seriyPS 21 сен 2010 в 23:59

Да, метод с триграммами с этим довольно хорошо справляется. Выдает список вариантов. В архиве с исходниками сфинкса есть пример php скрипта к той статье. Дополнительный плюс, что этот метод можно собственноручно «подтюнить» (см myrank из статьи).

По крайней мере я реализовывал спеллчекер для поискового индекса крупного интернет-магазина автозапчастей. В продакшн еще не выпустили но на тестах работает отлично.
А если у вас уже база слов а не текстов, то процесс еще упрощается т.к. триграммы можно генерировать сразу из базы слов а не indexer-ом.

Volgarastraport 22 сен 2010 в 08:57

Огромное спасибо. Буду изучать Сфинкс.

helios 22 сен 2010 в 01:29

Soundex, как алгоритм, применим только к английскому и родственным ему языкам.

На русском же выдает такое… ужасть просто.

helios 22 сен 2010 в 01:37

После большой и страстной любви со сфинксом и его ранкерами в своем проекте решил избавиться от него как можно быстрее.

В итоге успешно перебрался на Solr, попутно получив фасетный поиск, подсветку результатов и real-time обновления для изменившихся данных в индексе.

Да, и еще он умеет кушать .doc, .pdf и т.п. вкусные файлы :)

shodan 5 окт 2010 в 21:16

Интрига целая, даже интересно.

А откуда взялась «большая любовь с ранкерами»? Там вроде ровно 1 вызов «выбрать ранкер» и несколько тех ранкеров.

НЛО прилетело и опубликовало эту надпись здесь

Slon7 22 сен 2010 в 09:05

Если я не ошибаюсь, достаточно подключить словарь словоформ

НЛО прилетело и опубликовало эту надпись здесь

rednaxi 22 сен 2010 в 10:24

О, так она есть на русском! :)

А я ее читал на английском www.ibm.com/developerworks/library/os-php-sphinxsearch/

У нее есть минус что она написана для старой версии сфинкса и я когда пробовал брать из нее конфиги получал ошибки что, например, sql_group_column уже deprecated и нужно использовать другие параметры в конфиге

НЛО прилетело и опубликовало эту надпись здесь

rednaxi 22 сен 2010 в 10:32

Проблема с окончаниями решается как я понимаю подключением морфологии (morphology = stem_ru)

По крайней мере у меня по запросу «газонные решетки» находит товар «газонная решетка», по запросу «куплю газонную решетку» — тоже.

seriyPS 22 сен 2010 в 12:47

Дада, именно стеммер en.wikipedia.org/wiki/Stemming для этого предназначен. В сфинксе есть встроенные для английского русского чешского и еще кучу можно подключить через стороннюю библиотеку: sphinxsearch.com/docs/current.html#conf-morphology

НЛО прилетело и опубликовало эту надпись здесь

seriyPS 23 сен 2010 в 17:42

Ну я просто стеммер не отключал а без него не пробовал. Причем толькко на английском языке.
Вообще вполне эффективен.

А n-граммы вроде как для отбрасывания окончаний и не предназначены. Используйте стеммер конечно же

helios 23 сен 2010 в 20:29

Стемминг предназначен не того, чтобы по запросу «собакой» в результат попали документы с другими словоформами: «собака», «собаки», «собаками» и т.д.

Для поиска по маске создана директива min_infix_len. И то и то вещи похожие но все же разные

helios 23 сен 2010 в 20:25

Смотрите в сторону min_infix_len — этот параметр как раз для ваших целей и предназначен

kovyrlo 15 ноя 2010 в 12:53

Спасибо большое за статью, пишите по сфинксу ещё :)

rednaxi 15 ноя 2010 в 20:03

не за что:)
Пока особо нечего писать, добавил исправление ошибок в запросах с использованием триграмм и все работает :) т.к. поисковых запрсов на сайте немного (порядка 100 в день) то на доработку поиска пока не заморачиваемся, сконцентрировав внимание на более актуальных частях проекта.

Как только что — сразу напишу :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Создание ознакомительного поискового движка на Sphinx + php

Комментарии 59

Публикации

Истории