youmee22 апр 2008 в 14:33

Sphinx??

1 мин

3.6K

Веб-разработка *

+12

Комментарии 64

nini 22 апр 2008 в 16:16

Там же русский форум есть для таких вопросов.

НЛО прилетело и опубликовало эту надпись здесь

Lev_in 22 апр 2008 в 21:19

Где это такая возможность через API тексы ему скармливать? Что-то вы путаете!

НЛО прилетело и опубликовало эту надпись здесь

Lev_in 22 апр 2008 в 21:51

А причем тут API?
Это просто еще один вариант источника данных, наряду с MySQL и pgSQL.

НЛО прилетело и опубликовало эту надпись здесь

whm 22 апр 2008 в 17:50

ни разу не общавшись ни с одним из движков, позволю себе предположить, что weight - это ни что иное, как вес документа, т.е. как раз его приоритет в выводе результатов ;)

krig 22 апр 2008 в 18:02

Используем в нашем проекте Solr.
С релевантностью у него очень даже хорошо.
Правда не знаю как с русской морфологией, ибо проект англоязычный.

Cha0S 22 апр 2008 в 19:14

с русской морфологией тоже всё отлично.. после правильной настройки и доработки напильником :)

НЛО прилетело и опубликовало эту надпись здесь

tol 23 апр 2008 в 05:32

Вообще-то Solr для поиска использует Lucene.

krig 23 апр 2008 в 06:40

Я в курсе - не зря же он является субпроектом люцена =)

agorlov 22 апр 2008 в 18:08

Не могу не поделиться своим опытом :) Sphinx - это отличный продукт!!! До этого небыло такого простого и быстрого способа индексировать контент (из БД) и предоставлять пользователям сайта такой хороший и быстрый поиск. Он не только быстро ищет, но и быстро индексирует. Умеет фильровать, группировать еще там есть очень классная штука - MVA (можно к каждой записи например в блоге подключить теги и потом сделать выборку всех записей с тегом X).

До этого пользовался mnogosearch, он как раз специализируется на индексировании страниц, как классический поисковик. Нормально работал.

Сфинкс дает гораздо большую гибкость как в индексировании так и в представлении результатов поиска.

Еще его можно использовать не по назначению ) На больших объемах данных он по производительности
превосходит MySQL и его можно использовать как дополнение для быстрых выборок и поиска.

Вобщем, кто еще не пробовал советую!

Volgar 22 апр 2008 в 18:47

Ах, как ваш ответ релевантен вопросу топика!

agorlov 22 апр 2008 в 19:06

Согласен, но уж очень хорош сфинкс, не мог пройти мимо, сори.

Когда сталкивался с проблемами настройки сфинкса очень помог форум http://sphinxsearch.com/forum/forum.html…

Meneldor 22 апр 2008 в 19:03

А он лопату может? (c)
(Не удержался, ответил на оффтоп сообразно :))

kronos 22 апр 2008 в 19:07

Юзаем в текущем проекте, но подумываем на переход tsearch постгревский(проект на постгресе). Так как реиндексить базу каждый раз как то некошерно. А апдейтить и делетить насколько мне известно сфинкс не умеет(или уж точно не умеет рельсо плагин ultrasphinx). Еще пробовали феррет для наших объемов данных (миллионы записей) - тормоз.

Lev_in 22 апр 2008 в 21:25

Апдейтить сфинкс умеет только атрибуты. Тексты нет. Решается это дельта-индексом. В основном индексе апдейтим атрибут active=0 а объект добавляем в дельта-индекс.

Насколько же у вас огромна БД что реиндексить БД - проблема?
Без проблем решается переиндексированием один раз в сутки (ночью) + дельта индекс по новым записям+изменениям который индексится за секунды - например по крону каждую минуту.

НЛО прилетело и опубликовало эту надпись здесь

Lev_in 24 апр 2008 в 10:26

нет

wpm1 23 апр 2008 в 00:23

отправьте пожалуйста ссылкой к описанию поисковых плагинов к рельсам. спасибо.

kronos 23 апр 2008 в 03:29

http://projects.jkraemer.net/acts_as_fer… феррет
http://code.google.com/p/acts-as-tsearch… постгревский тсерч
http://blog.evanweaver.com/files/doc/fau… лучшее что есть для сфинкса

НЛО прилетело и опубликовало эту надпись здесь

shodan 24 апр 2008 в 06:12

> А апдейтить и делетить насколько мне известно сфинкс не умеет

Научится.

Кое-что сделаем совсем скоро, плюс полноценные "realtime" обновления уже вверху плана.

Следите за анонсами ;)

kronos 24 апр 2008 в 09:37

Очень ждем!

allmoney 22 апр 2008 в 20:05

Рекомендую mnogosearch.ru

НЛО прилетело и опубликовало эту надпись здесь

allmoney 22 апр 2008 в 22:00

Увы, для работы на русскоязычных сайтах - это единственный вариант, да и работает без нареканий после настройки. Я один раз настроил и забыл.

НЛО прилетело и опубликовало эту надпись здесь

allmoney 22 апр 2008 в 22:18

Например, на http://www.tophouse.ru стоит :)

НЛО прилетело и опубликовало эту надпись здесь

allmoney 22 апр 2008 в 22:31

А какой сайт Вы подразумеваете под случаем, когда стоит серьезно рассуждать о поисковых движках?

НЛО прилетело и опубликовало эту надпись здесь

Rusan 23 апр 2008 в 04:28

На семинаре автор рассказывал о 1,5 Тб базе текстов это самое большое по объему и миллион двести запросов в сутки к поиску (хотя вот эту цифру могу спутать).

shodan 24 апр 2008 в 06:16

Мне сообщили, что в пиковые дни до 4 миллионов.

Rusan 24 апр 2008 в 06:25

Андрей... вы же говорили, что это НДА? :)

shodan 24 апр 2008 в 06:28

Под NDA название той "маленькой" компании, которая 30+ миллионов поисков в сутки делает. (Хотя сильно меньше, чем по терабайту.)

Причем был факт публичного разглашения ее сотрудниками, но я параноидален :-)

Rusan 24 апр 2008 в 06:29

:) Андрей, а вы на phpconf с тем же докладом что и в МГУ выступать будете?

youmee 25 апр 2008 в 08:30

ответьте пожалуйста на русскоязычном форуме вашем, по поводу функции BuildExcerpts.. "подсветки".

hlomzik 22 апр 2008 в 22:37

Может проблема в самих товарах, а не в Sphinx?
Посмотрите, что учитывает поиск, и проверьте, чего больше у струн ;)

НЛО прилетело и опубликовало эту надпись здесь

mobilz 23 апр 2008 в 05:27

Один я до сих пор fulltext+union юзаю? =(

avenu 23 апр 2008 в 06:38

Фуллтекст проигрывает Сфинксу по всем параметрам.

zvirusz 23 апр 2008 в 06:38

смею вас успокоить - нет.
хотел прикрутить к проекту приятный поиск, пару дней информацию собирал. в итоге пришёл босс и сказал - фтопку морфологию, етц. делай тупой поиск. на том и порешали :)

artemenko 9 сен 2010 в 16:04

Прошло два года а у меня сегодня один в один ситуация была =)

CAJAX 23 апр 2008 в 08:52

youmee, попробуйте поменять Matching mode на SPH_MATCH_PHRASE.
Сталкивался с такой же проблемой, но после шаманства с конфигами и скриптами вроде всё встало на свои места.
Русская морфология работает не хуже английской.

Все таки рекомендую посетить форум на офф.сайте, там и вопрос этот поднимался и автор никогда в помощи не отказывает и объясняет, если что непонятно.

grank 23 апр 2008 в 09:37

Создайте 2 индекса.
Один для поиска точных соответсвий типа "гитара fender" (в конфиге enable_star = 1),
второй для поиска всех совпадений типа "гитары", "гитарой" ... ;-)
Затем проставте веса для каждого индекса.
Пример для пхп
$cl->SetMatchMode(SPH_MATCH_EXTENDED);
$indexes = array('индекс_с_точным_сооответсвием'=> 10, 'индекс_для_всех_совпадений'=> 1);
$cl->SetIndexWeights($indexes);
$index = implode(', ', array_keys($indexes));

Врезультате все записи с точным соответсвием(Weight будет больше) всплывут наверх.

В мане еще написано _begin, тоже можно попробовать.

CAJAX 23 апр 2008 в 10:30

Так просто! Гениально :)
Плюсанул бы, если бы было чем, а так просто СПА-СИ-БО!

youmee 23 апр 2008 в 11:04

Благодарю! Это немного помогло:)
"гитара fender" => в начале гитары,
далее идут всякие фишечки для гитар,
а потом опять гитары (электрогитары), вот у меня вопрос:
помоему он не может брать части слов "электрогитара", к сожалению.. либо берет но не выводит вверх, как бы это сделать...

youmee 23 апр 2008 в 11:11

т.е. я имею ввиду можно как то закрепить слова-синонимы, что бы введя гитара fender, он сначало искал и выводил гитара Fender, потом электрогитара fender и потом примочки для гитар(электрогитар) fender. Было бы просто волшебно! :)

grank 23 апр 2008 в 14:32

Посмотри опцию enable_star, надо плясать от нее, как мне кажется (возможно понадобится еще один индекс, но не уверен) :-)

shodan 24 апр 2008 в 06:18

> помоему он не может брать части слов "электрогитара",

min_infix_len, но индекс может сильно распухнуть.

> либо берет но не выводит вверх,

http://sphinxsearch.com/wiki/doku.php?id…

crocodile2u 24 апр 2008 в 07:03

$ grep synonyms sphinx.conf
должно помочь...

crocodile2u 24 апр 2008 в 07:18

не в ту ветку нечаянно предыдущий камент запостил - это я вообще-то youmee отвечал про синонимы.

youmee 24 апр 2008 в 15:14

окей:) спасибо:)

youmee 24 апр 2008 в 15:14

спасибо :)

phpclub 23 апр 2008 в 12:11

Тебе надо настроить группы, чтоб была грамотная групировка
или вообще разложить по нескольким базам..

Кстати можно будет попытать автора Sphinx
он выступает на 29-30 мая на PHPConf2008
http://phpconf.ru/

Rusan 24 апр 2008 в 06:27

А он будет с тем же докладом выступать, что и на семинаре который был в МГУ? (который здесь анонсировался)?

shodan 24 апр 2008 в 06:32

В целом да.

Однако есть желание еще сильнее расширить и углубить детали про потроха.

Надеюсь, успею.

Rusan 24 апр 2008 в 06:33

спасибо.

Digital_evil 6 мая 2008 в 12:16

искал на сайте но не нашел, подскажите плиз поддерживает ли сфинкс доступ к базе через jdbc?

phpclub 24 апр 2008 в 06:54

Нет.. там будет просто чумовой доклад судя по тезисам..
Скоро выйдет программа конфы.

Rusan 24 апр 2008 в 07:04

Да я уже все равно оплатил, так что меня агитировать не надо :). Да и Андрей сказал, что в целом такое же будет.

phpclub 24 апр 2008 в 13:39

Он ужо с Веборуба готовит.. и обсуждает в штабе конференции..

Зарегистрируйтесь на Хабре, чтобы оставить комментарий