shodan May 27 2009 at 18:22

Про что рассказать?

1 min

2.8K

«Sphinx Technologies Inc» corporate blogSphinx*

+61

110

Comments 110

Devgru May 27 2009 at 18:28

Многие уже забыли что это такое, я думаю. А так — да, пишите, конечно, всегда интересно про поиск читать.

shodan May 27 2009 at 18:34

Писать о чем конкретно? :)
Просто «про поиск» я написать не смогу!

jeje May 27 2009 at 18:54

Интересно, почему забыли?

Devgru May 27 2009 at 19:08

Чисто субъективно Lucene как-то больше на слуху в последнее время.

jeje May 27 2009 at 19:15

На хабре что-то давно ни того, ни того не слышно. Да и приятно использовать то, что написано нашим человеком.

Meneldor May 28 2009 at 11:54

Почему?

Я как раз выбираю движок для полнотекста. И думал именно про Ssphinx. Почему мне стоит подумать о Lucene?

SaveTheRbtz May 30 2009 at 03:46

У sphinx «монолитный» индекс

Meneldor May 30 2009 at 16:36

Эммм… Простите, в субботу сложные термины отказываются крутиться в моей голове :). Чем это хорошо/плохо?

SaveTheRbtz May 30 2009 at 17:03

Хорошо: очень быстрая индексация, более быстрый поиск^{[citation needed]}
Плохо: нельзя динамически добавлять/удалять данные из индекса (читать: после каждого изменения базы, в теории, нужна полная переиндексация, но на практике небольшое отставание поисковой базы от MySQL почти всегда приемлемо).

Существует хак в виде инкрементального индекса. То есть фактически есть 2 индекса:
1) строится редко и по всей базе (i.e. раз в сутки)
2) строится часто по изменившейся части базы (i.e. раз в 5 минут)

Поиск, соответственно, происходит по обоим индексам одновременно.

Meneldor May 31 2009 at 23:40

Спасибо за объяснение!

А этот хак применителен, собственно, к Ssphinx'у?

SaveTheRbtz Jun 1 2009 at 02:23

да

Rulez Jun 3 2009 at 19:31

А где его скачать? и попробовать? а можно информации по практической реализации инкрементального поиска на sphinx?

shodan Jun 2 2009 at 23:30

На самом деле, кстати, у Lucene тоже.
Каждый ихний сегмент это примерно такой же нашенский монолит.

Lucene автоматом управляет сегментами, регулярно их мержит где-то унутре.
И вообще скрывает потроха от пользователя.

Sphinx наоборот.
Пока не скрывает ничего, а местами зря (менее удобно).

stoune May 28 2009 at 00:26

Гм, а я увидев Sphinx подумал что речь идёт о sphinx.pocoo.org/ :)

-1

shodan May 28 2009 at 00:41

Ну хоть не про CMU Sphinx!

coldFlame May 27 2009 at 18:32

Все уже знают, как легко и непринуждено делать подсказки и-или автокоррекцию слов?

Не надо статьи, вы хотя бы намекните куда копать.

shodan May 27 2009 at 18:34

sphinx-0.9.9-rc2/misc/suggest

coldFlame May 27 2009 at 19:28

Спасибо, не то чтобы «легко и непринужденно», но за час настроил :).
Один нюанс, в построении словаря все-таки стоит использовать функции mbstring, по крайней мере на русских базах — обычные strlen и особенно substr делают из utf-8 мусор.

coldFlame May 27 2009 at 19:31

еще бы автозамену пхп=>php и подобного транслита прикрутить

shodan May 27 2009 at 19:50

Засылайте патч :)

Rulez Jun 3 2009 at 19:40

Ну что есть такой патч? было бы интересно

dienow May 27 2009 at 18:35

Автокоррекция слов? o_0 Было бы очень интересно почитать на эту тему!

Rulez Jun 3 2009 at 19:40

да очень интересно, ждем

jeje May 27 2009 at 18:46

Ё! вы принесли самые лучшие новости за сегодня.

zerkms May 27 2009 at 18:56

3 вопроса, без последнего :-)
вот их озвучивание было бы чудесным.

rondob May 27 2009 at 18:56

напишите ответы на вопросы которые Вы задаете в своем сообщении.

StepLg May 27 2009 at 18:58

+1. было бы здорово услышать ответы на них :)

Dreadatour May 27 2009 at 19:46

Ответы простые:
1. знают, но не все
2. нет, не все
3. не все
4. не все знают

Если серьёзно, то давно использую Sphinx — чрезвычайно хорошая вещь.
Почитать статьи на эту тему было бы интересно — вдруг чего упустил =)

Rulez Jun 3 2009 at 19:41

StepLg May 27 2009 at 18:57

интересует возможность задания списка синонимов? хотя бы однословных.

например, хочется, чтобы starcraft, старкрафт, старик — воспринимались как одно и то же. то есть на запрос со словом старкрафт находились документы со starcraft

на сколько я понял, в конфиге можно указать файл т.н. исключений, но вроде бы это не совсем то.

есть ли существующие средства для подобных вкусностей или нет? предвидятся? в какое место кода смотреть, чтобы (возможно) написать патч?

shodan May 27 2009 at 19:10

Однословные есть примерно с год.
Многословные (N-to-1 точнее) умеет начиная с 0.9.9-rc1.
sphinxsearch.com/docs/current.html#conf-wordforms

StepLg May 27 2009 at 19:16

спасибо. буду смотреть )

kurokikaze May 27 2009 at 20:34

Как интересно :) Спасибо )

Sherman81 May 27 2009 at 19:00

Было б интересно прочитать про внутреннее устройство поиска, про использование тех или иных алгоритмов. Можно даже добавить каких-то «скучных» вещей про то как вообще нужно правильно обрабатывать большие массивы данных в памяти.

Про кластер тоже интересно почитать. Знаю что есть исходный код, но если уж сами предложили выбрать тему, то вот я предлагаю такие :-)

david_mz May 27 2009 at 21:35

Тоже было бы интересно почитать про внутренности.

bio May 27 2009 at 19:06

Все ждут live updates :)

Rulez Jun 3 2009 at 19:44

очень ждут

MpaK999 May 27 2009 at 19:08

О, интересная тема, я бы с удовольствием последил бы «по шагам»: как установить, как установить морфологию, как скрестить например с php, как пользоваться, попробовать сделать поиск на своём сайте по базе…

Sherman81 May 27 2009 at 19:09

Неужели вам мана не хватает?

MpaK999 May 27 2009 at 19:40

ман это одно, а хороший и толковый рассказ это более познавательно

neon May 27 2009 at 22:20

А поиском не пробовали пользоваться? Я про настройку писал топик.

MpaK999 May 28 2009 at 09:27

Спасибо, ваша дебютная статья очень познавательная neon.habrahabr.ru/blog/29195/

Ну а в целом, просто приятно порой читать этакие «разжевывания» из основ для «новичков», не все же здесь гуру во всех областях…

recompileme May 28 2009 at 09:58

спасибо, как раз предстоит

bolk May 27 2009 at 19:16

Про «прикидываться MySQL» я бы почитал. Что это? Не backend к MySQL?

mtyoleg May 27 2009 at 19:21

скорее всего имеется ввиду Sphinx storage engine

coldFlame May 27 2009 at 19:30

неа, это Spinx 0.9.9 эмулирует MySQL-сервер (используя как бэкенд реальный MySQL-сервер).
Так запросы к сфинксу можно писать на диалекте SQL.

mtyoleg May 27 2009 at 19:35

www.sphinxsearch.com/docs/manual-0.9.9.html#sphinxse
оно?

coldFlame May 27 2009 at 19:37

нет :)
www.sphinxsearch.com/docs/manual-0.9.9.html#conf-listen | grep protocol

mtyoleg May 27 2009 at 19:41

аа, спасибо )

shodan May 27 2009 at 19:52

Не.
Своя реализация протокола + начинаем уметь SQL
www.sphinxsearch.com/docs/current.html#sphinxql

rondob May 27 2009 at 19:17

Объясните подробно, и доступно, чем Sphinx отличается от «MySQL fulltext search» на примере БД (id, title, description) со 100,000 записей например. Интересно также узнать и о качестве поиска по фразам, в сравнении Sphinx и «MySQL fulltext search». Спасибо!

Sherman81 May 27 2009 at 19:19

О первом вопросе можно узнать из любой презентации с тематических конференций(highload, mysql conf, высокие нагрузки).

Dreadatour May 27 2009 at 19:48

Лично у меня Sphinx в разы быстрее ищет, чем MySQL fulltext search.
Один только недостаток — долго перестраиваются индексы, но это совсем-совсем не критично.

brooho May 27 2009 at 23:43

Ищет не просто в разы, а в сотни раз, если не в тысячи раз быстрее (чем больше база, тем существеннее разница).
Индексы перестраивает не так уж и долго — минуту, ну может несколько от силы на 100000 записей потратит (к тому же там есть возможность не перестраивать, а обновить индексы). В любом случае работа в это время не останавливается.
А вот если заставить mysql перестроить заново fulltext индекс, то это вешалка просто (иногда приходилось, если, например таблица поломалась и её надо починить) — при больших размерах часами может переиндексировать и на всё это время таблицу лочит (в отличие от сфинкса). И ещё очень важно fulltext — это только MyISAM, а со сфинксом можно переползти на INNODB, а там в разы лучшая надежность, масштабируемость и прочие плюшки.

rondob May 28 2009 at 11:30

Спасибо за Ваш развернутый комментарий. Эта информация очень мне нужна сейчас. Меня пугает сама установка «Сфинкс», его нужно собирать для установки, т.е. не все так просто… для меня по крайней мере. Нашел на одном из российских торрентов отличную книгу: «High Performance MySQL» так там очень хорошие примеры приведены про использование «Сфинкс» на высоконагруженных сервисах типа mininova.org и тд. Может кого-то заинтересует. Книга на анг. языке.

shodan May 28 2009 at 12:13

Пока надо, да.
Когда-нибудь сделаем бинарные пакеты, пока не сделали.

Но сборка из сорсов и установка делается одной шелл командой все равно.
./configure --prefix=/home/sphinx && make install

rondob May 28 2009 at 12:19

И для Мака тоже так? Какой софт нужно иметь для этого? (я про компилятор).

shodan May 28 2009 at 12:40

На всех unix-like так.
Достаточно обычного gcc.

Говорят, на некоторых версиях MacOS геморрой с детектом версий iconv.
Лечится ./configure --without-iconv

rondob May 28 2009 at 13:09

Для меня это пока все так ново. Спасибо Вам за помощь!

brooho May 28 2009 at 12:19

ставится как-раз очень просто: для freebsd ставится из портов, для windows есть тоже собранный

Dreadatour May 28 2009 at 20:35

У меня индексы из таблиц в MySQL (база весит около 10 Гб — много-много миллионов записей) перестраиваются примерно час.
Полнотекстовый поиск MySQL на объёмах на несколько порядков меньше (до перехода на Sphinx) просто вешался.
Ну и починка таблиц (пару раз было) — сами понимаете… Работа стоит, все ходят вокруг с недобрыми взглядами, а MySQL неспешно чинит табличку =)))

kit May 27 2009 at 19:21

О, я не знал, что умеет уже прикидываться SQL-сервером, надо почитать.
Сейчас как раз новый проект беру, sphinx хотят использовать.

coldFlame May 27 2009 at 19:36

Вопрос: include в конфигах планируется когда-нибудь сделать?

Ситуация из жизни: два сайта, оба под свн, разворачиваются почти автоматически, а конфиг сфинкса все равно приходится ~~не забывать~~ править ручками. Очень неудобно, правда.

shodan May 27 2009 at 19:54

Уже никогда не планируется.
Конфиги уже можно скриптить на пофиг чем.

#!/usr/bin/php в первую строчку, и оно заработает.
shebang syntax называется, говорят!

mstarrr Nov 6 2011 at 17:45

Вот блин: разочарован. Создал иссью в вашем трекере sphinxsearch.com/bugs/view.php?id=968

Насколько я понял — можно не надеяться и не ждать? Или надеяться все же можно? :)

shodan Nov 6 2011 at 18:54

При наличии #! я не вижу необходимости.

mkechinov May 27 2009 at 19:43

Вот вопрос.
Имеем индекс на 10 гигов. Строится он в течение 25 минут.
Время от времени база обновляется на 40-60% (за один раз).
Нужно переиндексировать.
Индексатор с запущенным одновременно поисковым демоном не пашет — демона нужно отключить и запускать переиндексацию.
Есть какие-то способы, чтобы не отключать демона и чтобы поиск все время работал?
По возможности, без параллельных индексов и подмены конфига.

shodan May 27 2009 at 19:55

indexer --rotate отлично пашет

mkechinov May 27 2009 at 21:37

Да, это я видел. Не помню, но какую-то ошибку индексер пишет при попытке использовать --rotate. Доберусь до поисковика, посмотрю.

StepLg May 27 2009 at 19:55

как вариант — переиндексировать на другой машине. или можно делать на той же машине (если ресурсов хватает), но в другой файл индекса. потом копировать индекс в нужное место/перезапускать демона.

у меня вроде бы такая схема работает. не уверен, на сколько это грамотно с точки зрения философии сфинкса.

shodan?

shodan May 27 2009 at 19:58

Работает — не трожь!

stirbu May 27 2009 at 19:45

расскажи как прикрутить сфинкс к MSsql 2008 и сравнительный аналих по скорости ответа (сфинкс vs родной Mssql)

shodan May 27 2009 at 19:56

Прикрутить вроде просто.
type=mysql либо type=odbc в конфиге + правильный odbc_dsn + остальное «как для MySQL»

Анализ сам не могу.
Тк. не умею пользоваться MS SQL :)

ne0d1n May 27 2009 at 22:13

У нас в одном проекте на dotNet+MS SQL планируем использовать сфинкс.
программисты вроде API серьезно допилили.
Думаю, скоро поделятся.

seocoder May 27 2009 at 21:00

Расскажите как поставить и проиндексить на существующих базах размеров в десятки гигов.

null May 27 2009 at 21:26

Нихрена я не знаю =)
Круто, давайте подробнее про все эти чудеса =)

ne0d1n May 27 2009 at 22:18

Напишите про новый SetSelect
у меня так и не получилось использовать его в виде
SetSelect("*, @weight * ln(karma+2) as myweight");

А очень хочется. Проект уже работает.

tit May 27 2009 at 22:55

Лично мне было бы интересно узнать про взаимодействие с PostgreSQL и сравнение sphinx с tsearch2.

Erraen May 27 2009 at 23:30

Взаимодействие с постгри — на уровне SQL. Модулем, как для мускуля, собираться не умеет. Для постгри я предпочитаю именно tsearch2 — поскольку он встроенный, то для извращенных или оптимизированных за счет структуры базы (при помощи наследуемых таблиц например) селектов не надо строить извращенный индекс. По производительности — детально и на одинаковых наборах данных не исследовал, но tsearch вроде быстрее.

-1

antage May 28 2009 at 01:52

1. Понимает ли sphinx массивы в postgresql как sql_attr_multi или надо разворачивать их sql-запросом?
2. Хотелось бы мини-howto по SPH_MATCH_FULLSCAN.

shodan May 28 2009 at 12:15

1. Не понимает (и такую фичу пока никто не просил, вроде).
2. А про что конкретно?

antage May 28 2009 at 22:50

2. Пример использования

korchasa May 28 2009 at 02:18

1. Можно ли как-то узнать сколько значений отброшено по каждому конкретному атрибуту? Сильно бы помогло при отладке.

2. Значения атрибутов не показываются в логе, приходилось вести свой лог поверх стандартного.

Последний раз делал поиск несколько месяцев назад, поэтому возможно уже не актуально.

shodan May 28 2009 at 12:19

1. Из коробки нет, технически да, можно приписать лишнюю отладку.
2. Намеренно, полный дамп запроса получался довольно нечитаем. Но технически опять же можно приписать отладочную опцию.

hellohaos May 28 2009 at 11:09

Честно скажу:

пробовал я его поставить на windows, кажется получилося, а как поставить на VPS — совсем не знаю.
По мануалах ничего не понял. Личо я б с радостью почитал бы такую информацию.

Fally May 28 2009 at 12:19

В директории с исходниками:
CFLAGS=-O4 CXXFLAGS=-O4 ./configure --prefix=/дирректория/установки/сфинкса
make
make install
…
А далее идёте в каталог куда его ставили, в папку etc, там правите конфиг sphinx.conf, cd ../bin/ && ./indexer --all && ./searchd

Всё, Сфинкс запущен

Sherman81 May 28 2009 at 13:47

Offtop:
А что за оптимизации -O4?

Fally May 28 2009 at 15:59

ну, в принципе эта та же -O3, просто у меня привычка указывать число больше 3х, мало ли когда версию gcc обновлю, а там ещё один уровень оптимизации добавился ;)

Fally May 28 2009 at 16:00

т.е. указание несуществующего уровня оптимизации, включает максимальный существующий…

broderix May 28 2009 at 14:42

shodan, расскажи про то как работает релевантность при выдаче.
Интерисует то, как правильнее вытащить запись «наверх» в поисковой выдаче.

Rulez Jun 4 2009 at 01:27

да это очень реально нужная штука!

А еще очень интересно как можно модифицировать например первые 3 результата выдачи и показать свой сниппет+картинка+дополнительные ссылки

PavelRadaev May 28 2009 at 15:46

Я столкнулся с такой проблемой — есть несколько индексов с одинковой структурой аттрибутов, но пересекающимися идентификаторами. А искать нужно сразу в нескольких индексах, сфинкс же при совпадении айдишников из разных индексов оставляет только элемент из последнего указанного индекса — можно это как то обойти?

broderix May 28 2009 at 16:06

Мне кажется стоит пересмотреть структуру. Или сделать поиск по отдельным частям.
Если объединить индексы, то в выдаче sphinx'ом как вы будете различать какой id принадлежит к какой таблице?

PavelRadaev May 28 2009 at 16:40

вывод как раз нужен смешанный(отсортированный сфинксом), а различать элементы можно по какому либо атрибуту.

shodan Jun 2 2009 at 23:38

Сфинксу нельзя поступать иначе.
Иначе намертво отломятся дельты.

Обойти можно, сделав SELECT id*10+XXX,… в запросе sql_query.
Где XXX это внутренний для приложения номер индекса.

PavelRadaev Jun 3 2009 at 09:46

Спасибо, об этом думали, но это как то ЧЖП (ЧерезЖоПу), решили поправить само хранение

shodan Jun 3 2009 at 12:32

Да нормальный привычный трюк.
В этом случае Sphinx IDs супротив document IDs разные просто, потому что неуникальность.

Ну бывает.
Можно кстати document ID от лени вообще в атрибут положить.

svyatogor May 30 2009 at 00:03

Все что перечислено в посте было бы интересно! Со своей стороны могу осветить некоторые вопросы интеграции с Ruby on Rails, если таких постов нет еще.

SkyCat Jun 3 2009 at 18:36

Было бы очень интересно почитать про автоподсказки и автоисправление слов.

dbykov Jun 7 2009 at 15:45

подключайтесь к переводу мануала:
translated.by/you/sphinx-0-9-9-reference-manual/trans/

UFO just landed and posted this here

mstarrr Nov 6 2011 at 17:28

Спасибо, перечитал коменты с интересом. Хоть и 2 года прошло — но грабли похоже у всех одинаковые: непонимание, ошибки типовые.

billionaire Nov 27 2011 at 01:54

Было бы интересно почитать про реализацию «живого поиска» с помощью Sphinx для PHP. (оправданность использования Sphinx-а для решения данного вопроса, сравнения с скоростью MySQL и т.д.)
Заранее благодарен за статью.

shodan Nov 27 2011 at 04:30

«Живой поиск» это что имеется в виду?

billionaire Nov 27 2011 at 14:33

Работает примерно так: пользователь вводит несколько символов своего запроса и ему сразу предлагается несколько вариантов продолжения его запроса.
Например,
Живой поиск

shodan Nov 27 2011 at 15:31

Ну те. в любую базу данных импортируем лог запросов, и затем
SELECT * FROM query_log WHERE current_query LIKE 'жив%' ORDER BY freq LIMIT 10?

billionaire Dec 1 2011 at 00:06

Хороший вариант, но подходит только для маленьких баз. MySQL LIKE будет медленно работать на больших базах (1 млн+ записей). Думаю, с помощью Sphinx можно сделать быстрее…

shodan Dec 1 2011 at 01:17

Нормально он будет работать, LIKE 'abc%' это довольно быстрая выборка по индексу.

billionaire Dec 1 2011 at 02:19

Т.е. увеличение производительности за счет использования Sphinx вместо MySQL LIKE не будет?

shodan Dec 1 2011 at 02:30

Я не знаю.

В данном (данном) конкретном случае увеличения скорости в разы я бы не ожидал.

Но надо понимать, что LIKE 'abc%' супротив LIKE '%abc%' это две очень разные истории.

Первое — мгновенная выборка по индексу, второе — всегда полный перебор.

Здесь первый.