shodan Jun 3 2009 at 08:34

Как готовить SphinxQL

6 min

46K

«Sphinx Technologies Inc» corporate blogSphinx*

+84

Comments 80

jeje Jun 3 2009 at 08:50

А я как раз сейчас настраиваю работу SphinxQL, вовремя вы

sadsanta Jun 3 2009 at 09:26

Шикарно :)

Zlogrom Jun 3 2009 at 09:28

замечательно, зажигательно, познавательно. побольше бы таких статей. спасибо)

paules Jun 3 2009 at 09:58

очень изящно, и со вкусом приготовлено, спасибо!

NickMitin Jun 3 2009 at 10:09

Когда-же MySQL возьмет все лучшее от Sphinx…

jeje Jun 3 2009 at 10:11

Продвинем идею в MariaDB?

Astashov_Anton Jun 3 2009 at 10:18

Да это просто праздник какой-то!!! Как это всё здорово! И особенно развяжет руки то, что теперь OR тоже поддерживается.

yuretsz Jun 3 2009 at 16:33

Вынужден огорчить, но в статье написано обратное:

«Есть ряд ограничений на условия WHERE, тк. они транслируется непосредственно в фильтры; самое заметное заключется в том, что не поддерживается OR, только AND.»

shodan Jun 3 2009 at 19:53

Все так.
Но можно засунуть в выражение, а затем засунуть выражение в WHERE.

Astashov_Anton Jun 4 2009 at 00:03

Ой, да… Видимо, я увидел то, что очень хотел увидеть.

vorbiz Jun 3 2009 at 11:43

Кстати, у меня вопрос есть. С версии 0.99-rc1 появилась фича SetSelect, она, как я понимаю, позволяет использовать OR при фильстрации нужных результатов поиска. Почему же OR не добавили в запросы? Это, наверное, амая востребованная фича сфинкса.

shodan Jun 3 2009 at 14:29

Почему не добавили, все есть.
Тут некоторое непонимание, плюс я плохо объясняю.

OR() вполне можно использовать в выражениях (!) — это которые сразу после SELECT.
В строчке WHERE напрямую нельзя — но можно посчитать такое выражение и сунуть его в WHERE.

mgyk Jun 3 2009 at 12:34

Подскажите, поддерживается ли SUM() и AVG() c GROUP BY?

shodan Jun 3 2009 at 14:30

Да.
MIN() MAX() еще тоже.

akzhan Jun 3 2009 at 12:49

SET NAMES — очень важная команда, лучше бы не заглушку, а полноценную реализацию )

shodan Jun 4 2009 at 16:34

Готовы проспонсировать разработку? :)

akzhan Jun 4 2009 at 21:08

В обмен на что-нибудь — не вопрос )

Сам я не использую Сфинкс.

shodan Jun 4 2009 at 21:23

«Спонсирование в обмен» это как-то сложно для меня! :)

akzhan Jun 5 2009 at 06:21

Странно, как же это не сложно для других людей, для многих проектов?)

Например, возьмите любую выставку, у каждой из них много спонсоров. И причём спонсоры тоже имеют некий профит…

shodan Jun 5 2009 at 12:12

Сфинкс это такой софт (бесплатный, открытый, итп).
Причем тут выставки?..

akzhan Jun 5 2009 at 12:31

Ближайшие аналоги из мира ПО — donation-ware.

Вообще форм взаимодействия спонсоров и разработчиков много, просто лень перечислять.

shodan Jun 5 2009 at 12:49

Donations не работают, если чо.
Примерно совсем.

В общем, я какую мысль-то хотел донести.
Если кому вдруг нужно приделать какие-то фичи, пишите, можно обсуждать.

egorinsk Jun 3 2009 at 12:53

Читаю мануал по Сфинксу, не могу остановиться)

С чего авторы вдруг такую вещь решили бесплатно раздавать? Или коммерческие поисковики еще мощнее что ли?

Fally Jun 3 2009 at 13:26

мм… понимаете… я думаю что это just for fun… ну и опыт огромный…

shodan Jun 3 2009 at 14:31

Продать задорого пока не получается, не умеем :(
Приходится раздавать бесплатно поэтому.

Lev_in Jun 3 2009 at 21:37

Например существует схема заработка на продажах продукта, а другая — заработков на поддержке. — Чем не вариант?

egorinsk Jun 3 2009 at 22:18

Тем что можно бы зарабатывать и на том и на том :) А то понимаешь все хотят бесплаьно поюзать. а денежкой делиться не хотят.

shodan Jun 4 2009 at 16:34

Начни с себя, ~~погладь кота~~ купи саппорта!!!

aleks_raiden Jun 3 2009 at 13:03

А раскажите еще об поддержке Drizzle и про участие сфинксового движка в новом проекте веб-поисковика опенсорсного на базе Drizzle/Gearman/Sphinx

shodan Jun 4 2009 at 16:35

Они сами!

stirbu Jun 3 2009 at 19:05

как можно hightlight найденых слов настроить в результатах поиска?

shodan Jun 3 2009 at 19:54

Через MYSQL протокол никак пока.
Через нативные API есть BuildExcerpts()

stanishevsky Jun 3 2009 at 21:25

А есть какие-нибудь планы, в которых это «пока» превращается в «уже»? Очень уж AutoSuggest хочется делать.

shodan Jun 4 2009 at 16:35

Эээ.
А какая связь между генерацией сниппетов (highlight) и тем autosuggest?

stanishevsky Jun 4 2009 at 20:37

Возможно, стреляю не из того ружья не по тем воробьям:

Хочу сделать поиск с AutoSuggest – ну в точности как здесь на Хабре.
Для этого приходится делать поиск фразы по мере ввода с добавлением звезды: ПАРО* найдет нам все страницы, на которых есть ПАРОХОДЫ, ПАРОВОЗЫ и ПАРОМЫ, после чего к тексту каждой найденной странице применяем BuildExcerpts и полученные в результате «огрызки» показываем в выпадающем списке.

Другого придумать не смог, а этот способ меня не устраивает по двум причинам:

а) BuildExcerpts все же вытаскивает не найденные слова в исходной форме (именительный падеж единственное число), а буквально куски текста, то есть у меня получаются: «белый ПАРОход пришвартовался», «ожидаемые ПАРОходы приплыли» и «как оказалось ПАРОходами заинтересовался» – это выглядит неприятно, хочется получать фрагменты начиная со слова «ПАРОход».

б) База данных у меня такая, что мне приходится писать довольно большой и сложный запрос в sql_query для индексатора. Для того, чтобы скормить текст в BuildExcerpts, мне приходится писать этот запрос заново, чтобы получить то, что получал индексатор. Было бы здорово, если бы индексатор умел где-нибудь сохранить тот текст, который он индексировал, в своем первозданном виде.

Или я совсем не так это делаю?

shodan Jun 4 2009 at 20:43

Совсем не так.
indexer --buildstops + засосать каждую строчку в базу + искать в ней (необязательно Сфинксом).

Подробнее распишу в следующем посте, пожалуй.
Будет хорошее дополнение к нему.

stanishevsky Jun 4 2009 at 21:19

Спасибо, было бы очень здорово потому что, кажется, не вполне очевидное решение.
Или если есть в документации – ткните носом, пожалуйста.

shodan Jun 4 2009 at 21:21

В документации не.
И вряд ли будет.

Там описаны все кубики.
Но как их складывать в пирамидки, это отдельное :)

stanishevsky Jun 4 2009 at 21:26

Впрочем, да – вот вам и способ монетизации :)
Спасибо, что помогаете забесплатно.

То есть indexer --buildstops 100000000 примерно так, да? Остальное ясно.

shodan Jun 4 2009 at 22:59

Плохо работающий способ монетизации, да.
Примерно так.

stirbu Jun 4 2009 at 21:30

портировали функцию с апи для майскл. все работает отлично уже неделю, очень даже стабильно. мы очень довольны. исправили сами баги в проекте и ура. сфинкс рулит

shodan Jun 4 2009 at 23:01

Слишком стабильно, я всегда это говорю!

zenuch Jul 6 2009 at 15:51

Не поделитесь?

Rulez Jun 3 2009 at 21:22

а что слышно по поводу инкрементального индекса?

stanishevsky Jun 3 2009 at 21:26

Live index updates не то?

Rulez Jun 3 2009 at 21:36

Возможно и то, а есть опыт реального использования? + ссылки?

stanishevsky Jun 3 2009 at 21:41

Стандартная фича, в доках: www.sphinxsearch.com/docs/current.html#live-updates
Опыт реального использования… Будет через часок )

Rulez Jun 3 2009 at 21:43

Вау, очень жду, можно и отдельный топик забацать

stanishevsky Jun 3 2009 at 21:47

Эх, не судьба. По здравому размышлению оно мне оказалось не нужно :(
Это работает, когда все имеющиеся уже в базе документы не изменяются – например, форум в котором нельзя отредактировать свое сообщение после того, как оно опубликовано.

А у меня просто сайт, в котором каждая страница может в любой момент быть изменена, стало быть, после изменения в инкрементный индекс не попадет. Можно извернуться, но у меня порядка 2-3 тыс документов в базе – легче каждый час всю базу перестраивать.

Прошу прощения )

Rulez Jun 3 2009 at 21:52

Все стоит подумать и попробовать сделать флаг для изменившихся страниц, если он есть переиндексировать, для форума тоже актуально, редко закрытые топики редактируют, а если редактировался ставим флаг что топик редактировался, при росте базы, это актуально. Сейчас пока у меня база на 9 тыс. документов, другой индексатор пыхтит минут 20-ть, но это не sphinx а могло бы намного быстрее работать

stanishevsky Jun 3 2009 at 21:55

Коммерческий проект со сжатыми сроками и без перспективы роста хотя бы до 6000 документов. А так конечно можно, хотя бы просто по полю даты изменения документа. Ну может дойдут руки еще.

Lev_in Jun 3 2009 at 21:38

А что есть инкрементальный индекс?

Rulez Jun 3 2009 at 21:43

дополнение индекса на лету без обновление всего индекса, например появились 50 новых записей в базе, раз в 5-ть минут, индекс ими дополнился, понятно описал?

Lev_in Jun 4 2009 at 06:24

Merge — слияние двух индексов. sphinxsearch.com/docs/current.html#index-merging

shodan Jun 4 2009 at 16:36

Слышно вот это
sphinxsearch.com/news/35.html

Kirax Jun 4 2009 at 11:22

Спасибо! Было бы интересно посмотреть на указанный SQL-пример в виде API вызовов, чтобы было понятнее.

shodan Jun 4 2009 at 16:40

Ну я даже…

$client->SetSelect ( "*, @weight+userkarma*1000 AS myweight" );
$client->SetFilter ( «userid», array(123,456,98,76,54), true );
$client->SetFilter ( «hidden», array(0), true );
$client->SetFilterRange ( «postkarma», 5, 1000000000 ); // UINT_MAX, но как его там в PHP…
$client->SetGroupBy ( SPH_GROUPBY_ATTR, «userid», «myweight DESC, postdate ASC» );
$client->SetSortMode ( «myweight DESC» );
$client->SetLimit ( 100, 20 );
$client->Query ( "@title hello @content world", «mainindex, deltaindex» );

Примерно (примерно) так