shodan 3 июн 2009 в 12:34

Как готовить SphinxQL

6 мин

45K

Блог компании «Sphinx Technologies Inc»Sphinx*

+84

Комментарии 80

jeje 3 июн 2009 в 12:50

А я как раз сейчас настраиваю работу SphinxQL, вовремя вы

sadsanta 3 июн 2009 в 13:26

Шикарно :)

-1

Zlogrom 3 июн 2009 в 13:28

замечательно, зажигательно, познавательно. побольше бы таких статей. спасибо)

-2

paules 3 июн 2009 в 13:58

очень изящно, и со вкусом приготовлено, спасибо!

-2

NickMitin 3 июн 2009 в 14:09

Когда-же MySQL возьмет все лучшее от Sphinx…

jeje 3 июн 2009 в 14:11

Продвинем идею в MariaDB?

Astashov_Anton 3 июн 2009 в 14:18

Да это просто праздник какой-то!!! Как это всё здорово! И особенно развяжет руки то, что теперь OR тоже поддерживается.

yuretsz 3 июн 2009 в 20:33

Вынужден огорчить, но в статье написано обратное:

«Есть ряд ограничений на условия WHERE, тк. они транслируется непосредственно в фильтры; самое заметное заключется в том, что не поддерживается OR, только AND.»

shodan 3 июн 2009 в 23:53

Все так.
Но можно засунуть в выражение, а затем засунуть выражение в WHERE.

Astashov_Anton 4 июн 2009 в 04:03

Ой, да… Видимо, я увидел то, что очень хотел увидеть.

vorbiz 3 июн 2009 в 15:43

Кстати, у меня вопрос есть. С версии 0.99-rc1 появилась фича SetSelect, она, как я понимаю, позволяет использовать OR при фильстрации нужных результатов поиска. Почему же OR не добавили в запросы? Это, наверное, амая востребованная фича сфинкса.

shodan 3 июн 2009 в 18:29

Почему не добавили, все есть.
Тут некоторое непонимание, плюс я плохо объясняю.

OR() вполне можно использовать в выражениях (!) — это которые сразу после SELECT.
В строчке WHERE напрямую нельзя — но можно посчитать такое выражение и сунуть его в WHERE.

mgyk 3 июн 2009 в 16:34

Подскажите, поддерживается ли SUM() и AVG() c GROUP BY?

shodan 3 июн 2009 в 18:30

Да.
MIN() MAX() еще тоже.

akzhan 3 июн 2009 в 16:49

SET NAMES — очень важная команда, лучше бы не заглушку, а полноценную реализацию )

shodan 4 июн 2009 в 20:34

Готовы проспонсировать разработку? :)

akzhan 5 июн 2009 в 01:08

В обмен на что-нибудь — не вопрос )

Сам я не использую Сфинкс.

shodan 5 июн 2009 в 01:23

«Спонсирование в обмен» это как-то сложно для меня! :)

akzhan 5 июн 2009 в 10:21

Странно, как же это не сложно для других людей, для многих проектов?)

Например, возьмите любую выставку, у каждой из них много спонсоров. И причём спонсоры тоже имеют некий профит…

shodan 5 июн 2009 в 16:12

Сфинкс это такой софт (бесплатный, открытый, итп).
Причем тут выставки?..

akzhan 5 июн 2009 в 16:31

Ближайшие аналоги из мира ПО — donation-ware.

Вообще форм взаимодействия спонсоров и разработчиков много, просто лень перечислять.

shodan 5 июн 2009 в 16:49

Donations не работают, если чо.
Примерно совсем.

В общем, я какую мысль-то хотел донести.
Если кому вдруг нужно приделать какие-то фичи, пишите, можно обсуждать.

egorinsk 3 июн 2009 в 16:53

Читаю мануал по Сфинксу, не могу остановиться)

С чего авторы вдруг такую вещь решили бесплатно раздавать? Или коммерческие поисковики еще мощнее что ли?

Fally 3 июн 2009 в 17:26

мм… понимаете… я думаю что это just for fun… ну и опыт огромный…

shodan 3 июн 2009 в 18:31

Продать задорого пока не получается, не умеем :(
Приходится раздавать бесплатно поэтому.

Lev_in 4 июн 2009 в 01:37

Например существует схема заработка на продажах продукта, а другая — заработков на поддержке. — Чем не вариант?

egorinsk 4 июн 2009 в 02:18

Тем что можно бы зарабатывать и на том и на том :) А то понимаешь все хотят бесплаьно поюзать. а денежкой делиться не хотят.

shodan 4 июн 2009 в 20:34

Начни с себя, ~~погладь кота~~ купи саппорта!!!

aleks_raiden 3 июн 2009 в 17:03

А раскажите еще об поддержке Drizzle и про участие сфинксового движка в новом проекте веб-поисковика опенсорсного на базе Drizzle/Gearman/Sphinx

shodan 4 июн 2009 в 20:35

Они сами!

stirbu 3 июн 2009 в 23:05

как можно hightlight найденых слов настроить в результатах поиска?

shodan 3 июн 2009 в 23:54

Через MYSQL протокол никак пока.
Через нативные API есть BuildExcerpts()

stanishevsky 4 июн 2009 в 01:25

А есть какие-нибудь планы, в которых это «пока» превращается в «уже»? Очень уж AutoSuggest хочется делать.

shodan 4 июн 2009 в 20:35

Эээ.
А какая связь между генерацией сниппетов (highlight) и тем autosuggest?

stanishevsky 5 июн 2009 в 00:37

Возможно, стреляю не из того ружья не по тем воробьям:

Хочу сделать поиск с AutoSuggest – ну в точности как здесь на Хабре.
Для этого приходится делать поиск фразы по мере ввода с добавлением звезды: ПАРО* найдет нам все страницы, на которых есть ПАРОХОДЫ, ПАРОВОЗЫ и ПАРОМЫ, после чего к тексту каждой найденной странице применяем BuildExcerpts и полученные в результате «огрызки» показываем в выпадающем списке.

Другого придумать не смог, а этот способ меня не устраивает по двум причинам:

а) BuildExcerpts все же вытаскивает не найденные слова в исходной форме (именительный падеж единственное число), а буквально куски текста, то есть у меня получаются: «белый ПАРОход пришвартовался», «ожидаемые ПАРОходы приплыли» и «как оказалось ПАРОходами заинтересовался» – это выглядит неприятно, хочется получать фрагменты начиная со слова «ПАРОход».

б) База данных у меня такая, что мне приходится писать довольно большой и сложный запрос в sql_query для индексатора. Для того, чтобы скормить текст в BuildExcerpts, мне приходится писать этот запрос заново, чтобы получить то, что получал индексатор. Было бы здорово, если бы индексатор умел где-нибудь сохранить тот текст, который он индексировал, в своем первозданном виде.

Или я совсем не так это делаю?

shodan 5 июн 2009 в 00:43

Совсем не так.
indexer --buildstops + засосать каждую строчку в базу + искать в ней (необязательно Сфинксом).

Подробнее распишу в следующем посте, пожалуй.
Будет хорошее дополнение к нему.

stanishevsky 5 июн 2009 в 01:19

Спасибо, было бы очень здорово потому что, кажется, не вполне очевидное решение.
Или если есть в документации – ткните носом, пожалуйста.

shodan 5 июн 2009 в 01:21

В документации не.
И вряд ли будет.

Там описаны все кубики.
Но как их складывать в пирамидки, это отдельное :)

stanishevsky 5 июн 2009 в 01:26

Впрочем, да – вот вам и способ монетизации :)
Спасибо, что помогаете забесплатно.

То есть indexer --buildstops 100000000 примерно так, да? Остальное ясно.

shodan 5 июн 2009 в 02:59

Плохо работающий способ монетизации, да.
Примерно так.

stirbu 5 июн 2009 в 01:30

портировали функцию с апи для майскл. все работает отлично уже неделю, очень даже стабильно. мы очень довольны. исправили сами баги в проекте и ура. сфинкс рулит

shodan 5 июн 2009 в 03:01

Слишком стабильно, я всегда это говорю!

zenuch 6 июл 2009 в 19:51

Не поделитесь?

Rulez 4 июн 2009 в 01:22

а что слышно по поводу инкрементального индекса?

stanishevsky 4 июн 2009 в 01:26

Live index updates не то?

Rulez 4 июн 2009 в 01:36

Возможно и то, а есть опыт реального использования? + ссылки?

stanishevsky 4 июн 2009 в 01:41

Стандартная фича, в доках: www.sphinxsearch.com/docs/current.html#live-updates
Опыт реального использования… Будет через часок )

Rulez 4 июн 2009 в 01:43

Вау, очень жду, можно и отдельный топик забацать

stanishevsky 4 июн 2009 в 01:47

Эх, не судьба. По здравому размышлению оно мне оказалось не нужно :(
Это работает, когда все имеющиеся уже в базе документы не изменяются – например, форум в котором нельзя отредактировать свое сообщение после того, как оно опубликовано.

А у меня просто сайт, в котором каждая страница может в любой момент быть изменена, стало быть, после изменения в инкрементный индекс не попадет. Можно извернуться, но у меня порядка 2-3 тыс документов в базе – легче каждый час всю базу перестраивать.

Прошу прощения )

Rulez 4 июн 2009 в 01:52

Все стоит подумать и попробовать сделать флаг для изменившихся страниц, если он есть переиндексировать, для форума тоже актуально, редко закрытые топики редактируют, а если редактировался ставим флаг что топик редактировался, при росте базы, это актуально. Сейчас пока у меня база на 9 тыс. документов, другой индексатор пыхтит минут 20-ть, но это не sphinx а могло бы намного быстрее работать

stanishevsky 4 июн 2009 в 01:55

Коммерческий проект со сжатыми сроками и без перспективы роста хотя бы до 6000 документов. А так конечно можно, хотя бы просто по полю даты изменения документа. Ну может дойдут руки еще.

Lev_in 4 июн 2009 в 01:38

А что есть инкрементальный индекс?

Rulez 4 июн 2009 в 01:43

дополнение индекса на лету без обновление всего индекса, например появились 50 новых записей в базе, раз в 5-ть минут, индекс ими дополнился, понятно описал?

Lev_in 4 июн 2009 в 10:24

Merge — слияние двух индексов. sphinxsearch.com/docs/current.html#index-merging

shodan 4 июн 2009 в 20:36

Слышно вот это
sphinxsearch.com/news/35.html

Kirax 4 июн 2009 в 15:22

Спасибо! Было бы интересно посмотреть на указанный SQL-пример в виде API вызовов, чтобы было понятнее.

shodan 4 июн 2009 в 20:40

Ну я даже…

$client->SetSelect ( "*, @weight+userkarma*1000 AS myweight" );
$client->SetFilter ( «userid», array(123,456,98,76,54), true );
$client->SetFilter ( «hidden», array(0), true );
$client->SetFilterRange ( «postkarma», 5, 1000000000 ); // UINT_MAX, но как его там в PHP…
$client->SetGroupBy ( SPH_GROUPBY_ATTR, «userid», «myweight DESC, postdate ASC» );
$client->SetSortMode ( «myweight DESC» );
$client->SetLimit ( 100, 20 );
$client->Query ( "@title hello @content world", «mainindex, deltaindex» );

Примерно (примерно) так