Pull to refresh

Comments 64

Там же русский форум есть для таких вопросов.
UFO just landed and posted this here
Где это такая возможность через API тексы ему скармливать? Что-то вы путаете!
UFO just landed and posted this here
А причем тут API?
Это просто еще один вариант источника данных, наряду с MySQL и pgSQL.
UFO just landed and posted this here
ни разу не общавшись ни с одним из движков, позволю себе предположить, что weight - это ни что иное, как вес документа, т.е. как раз его приоритет в выводе результатов ;)
Используем в нашем проекте Solr.
С релевантностью у него очень даже хорошо.
Правда не знаю как с русской морфологией, ибо проект англоязычный.
с русской морфологией тоже всё отлично.. после правильной настройки и доработки напильником :)
UFO just landed and posted this here
Вообще-то Solr для поиска использует Lucene.
Я в курсе - не зря же он является субпроектом люцена =)
Не могу не поделиться своим опытом :) Sphinx - это отличный продукт!!! До этого небыло такого простого и быстрого способа индексировать контент (из БД) и предоставлять пользователям сайта такой хороший и быстрый поиск. Он не только быстро ищет, но и быстро индексирует. Умеет фильровать, группировать еще там есть очень классная штука - MVA (можно к каждой записи например в блоге подключить теги и потом сделать выборку всех записей с тегом X).

До этого пользовался mnogosearch, он как раз специализируется на индексировании страниц, как классический поисковик. Нормально работал.

Сфинкс дает гораздо большую гибкость как в индексировании так и в представлении результатов поиска.

Еще его можно использовать не по назначению ) На больших объемах данных он по производительности
превосходит MySQL и его можно использовать как дополнение для быстрых выборок и поиска.

Вобщем, кто еще не пробовал советую!
Ах, как ваш ответ релевантен вопросу топика!
Согласен, но уж очень хорош сфинкс, не мог пройти мимо, сори.

Когда сталкивался с проблемами настройки сфинкса очень помог форум http://sphinxsearch.com/forum/forum.html…
А он лопату может? (c)
(Не удержался, ответил на оффтоп сообразно :))
Юзаем в текущем проекте, но подумываем на переход tsearch постгревский(проект на постгресе). Так как реиндексить базу каждый раз как то некошерно. А апдейтить и делетить насколько мне известно сфинкс не умеет(или уж точно не умеет рельсо плагин ultrasphinx). Еще пробовали феррет для наших объемов данных (миллионы записей) - тормоз.
Апдейтить сфинкс умеет только атрибуты. Тексты нет. Решается это дельта-индексом. В основном индексе апдейтим атрибут active=0 а объект добавляем в дельта-индекс.

Насколько же у вас огромна БД что реиндексить БД - проблема?
Без проблем решается переиндексированием один раз в сутки (ночью) + дельта индекс по новым записям+изменениям который индексится за секунды - например по крону каждую минуту.
UFO just landed and posted this here
отправьте пожалуйста ссылкой к описанию поисковых плагинов к рельсам. спасибо.
UFO just landed and posted this here
> А апдейтить и делетить насколько мне известно сфинкс не умеет

Научится.

Кое-что сделаем совсем скоро, плюс полноценные "realtime" обновления уже вверху плана.

Следите за анонсами ;)
UFO just landed and posted this here
Увы, для работы на русскоязычных сайтах - это единственный вариант, да и работает без нареканий после настройки. Я один раз настроил и забыл.
UFO just landed and posted this here
UFO just landed and posted this here
А какой сайт Вы подразумеваете под случаем, когда стоит серьезно рассуждать о поисковых движках?
UFO just landed and posted this here
На семинаре автор рассказывал о 1,5 Тб базе текстов это самое большое по объему и миллион двести запросов в сутки к поиску (хотя вот эту цифру могу спутать).
Мне сообщили, что в пиковые дни до 4 миллионов.
Андрей... вы же говорили, что это НДА? :)
Под NDA название той "маленькой" компании, которая 30+ миллионов поисков в сутки делает. (Хотя сильно меньше, чем по терабайту.)

Причем был факт публичного разглашения ее сотрудниками, но я параноидален :-)
:) Андрей, а вы на phpconf с тем же докладом что и в МГУ выступать будете?
ответьте пожалуйста на русскоязычном форуме вашем, по поводу функции BuildExcerpts.. "подсветки".
Может проблема в самих товарах, а не в Sphinx?
Посмотрите, что учитывает поиск, и проверьте, чего больше у струн ;)
UFO just landed and posted this here
Один я до сих пор fulltext+union юзаю? =(
Фуллтекст проигрывает Сфинксу по всем параметрам.
смею вас успокоить - нет.
хотел прикрутить к проекту приятный поиск, пару дней информацию собирал. в итоге пришёл босс и сказал - фтопку морфологию, етц. делай тупой поиск. на том и порешали :)
Прошло два года а у меня сегодня один в один ситуация была =)
youmee, попробуйте поменять Matching mode на SPH_MATCH_PHRASE.
Сталкивался с такой же проблемой, но после шаманства с конфигами и скриптами вроде всё встало на свои места.
Русская морфология работает не хуже английской.

Все таки рекомендую посетить форум на офф.сайте, там и вопрос этот поднимался и автор никогда в помощи не отказывает и объясняет, если что непонятно.
Создайте 2 индекса.
Один для поиска точных соответсвий типа "гитара fender" (в конфиге enable_star = 1),
второй для поиска всех совпадений типа "гитары", "гитарой" ... ;-)
Затем проставте веса для каждого индекса.
Пример для пхп
$cl->SetMatchMode(SPH_MATCH_EXTENDED);
$indexes = array('индекс_с_точным_сооответсвием'=> 10, 'индекс_для_всех_совпадений'=> 1);
$cl->SetIndexWeights($indexes);
$index = implode(', ', array_keys($indexes));

Врезультате все записи с точным соответсвием(Weight будет больше) всплывут наверх.

В мане еще написано _begin, тоже можно попробовать.
Так просто! Гениально :)
Плюсанул бы, если бы было чем, а так просто СПА-СИ-БО!
Благодарю! Это немного помогло:)
"гитара fender" => в начале гитары,
далее идут всякие фишечки для гитар,
а потом опять гитары (электрогитары), вот у меня вопрос:
помоему он не может брать части слов "электрогитара", к сожалению.. либо берет но не выводит вверх, как бы это сделать...
т.е. я имею ввиду можно как то закрепить слова-синонимы, что бы введя гитара fender, он сначало искал и выводил гитара Fender, потом электрогитара fender и потом примочки для гитар(электрогитар) fender. Было бы просто волшебно! :)
Посмотри опцию enable_star, надо плясать от нее, как мне кажется (возможно понадобится еще один индекс, но не уверен) :-)
> помоему он не может брать части слов "электрогитара",

min_infix_len, но индекс может сильно распухнуть.

> либо берет но не выводит вверх,

http://sphinxsearch.com/wiki/doku.php?id…
$ grep synonyms sphinx.conf
должно помочь...
не в ту ветку нечаянно предыдущий камент запостил - это я вообще-то youmee отвечал про синонимы.
Тебе надо настроить группы, чтоб была грамотная групировка
или вообще разложить по нескольким базам..

Кстати можно будет попытать автора Sphinx
он выступает на 29-30 мая на PHPConf2008
http://phpconf.ru/
А он будет с тем же докладом выступать, что и на семинаре который был в МГУ? (который здесь анонсировался)?
В целом да.

Однако есть желание еще сильнее расширить и углубить детали про потроха.

Надеюсь, успею.
искал на сайте но не нашел, подскажите плиз поддерживает ли сфинкс доступ к базе через jdbc?
Нет.. там будет просто чумовой доклад судя по тезисам..
Скоро выйдет программа конфы.
Да я уже все равно оплатил, так что меня агитировать не надо :). Да и Андрей сказал, что в целом такое же будет.
Он ужо с Веборуба готовит.. и обсуждает в штабе конференции..
Sign up to leave a comment.

Articles