Pull to refresh
  • by relevance
  • by date
  • by rating

Семинар по Sphinx

Website development *
10го апреля в 16:20 на факультете ВМиК МГУ (2й учебный корпус, 5я поточная аудитория) пройдет семинар по open-source движку полнотекстового поиска Sphinx, с участием автора.

Участие бесплатное (как и движок) — но количество мест ограничено, и вход по пропускам. Поэтому необходимо заранее сообщить ФИО для оформления пропуска по адресу flx@msu.ru. (Мы будем отсылать обратно подтверждения.)

Приглашаем всех желающих!
Total votes 12: ↑10 and ↓2 +8
Views 1K
Comments 6

Sphinx??

Website development *
Думаю многим из вас приходилось когда-либо сталкиваться с прикручиванием поиска, на сайте. Вот и мне по работе, пришлось этим заняться.

В поисках поискового движка, так понял, лидирующие места занимают Lucene и Sphinx.

Но требования следующие (норма):
  • Стабильная работа с русским языком
  • Морфология («гитара» <-> «гитары» <-> «гитар»)
  • Быстродействие
  • Возможность индексировать PG, MySQL и файлы (.html)
  • PHP-API, установка на любом *nix дистрибутиве (FreeBSD, Ubuntu Server)


Выпал случай, поставил Sphinx, настроил (вроде как О_о), проиндексировал базу с каталогом товаров. (включена stemm_enru морфология).

Сортировка по релевантности, жму: «гитара fender», и из БД в первую очередь же он мне выводит струны для гитары фендер, потом уже сами гитары, а должно быть наоборот. Не понимаю, в чем дело, и что за Weight и как их настраивать.

Читал мануал на сайте разработчика, но всё там как то слишком сложно описано, либо я лох)

В общем, уважаемые, помогите пожалуйста разобраться.
Total votes 36: ↑24 and ↓12 +12
Views 3.2K
Comments 64

Сунем голым за русский опен-сорс!

Self Promo
Широко известный в узких кругах опенсорсный проект (Sphinx, полнотекстовый поисковик) участвует в конкурсе сообщества SourceForge — все желающие приглашаются проголосовать.

Регистрация тут (упрощенная, если есть OpenID), голосовалка тут.

Для участия в голосовалке надо зарегистрироваться на SourceForge по первой ссылке, пройти по второй, и заноминировать Sphinx во всяких подходящих категориях (Best Project, Best Project for the Enterprise, Best New Project, итп). Проект можно заноминировать в несколько категорий, если по второй ссылке пройти несколько раз. (Вот такая вот usability у того SF.)
Total votes 46: ↑33 and ↓13 +20
Views 576
Comments 18

Вышел Sphinx 0.9.8

«Sphinx Technologies Inc» corporate blog Website development *
Sphinx search engineSphinx — созданный в России бесплатный поисковой движок с открытым кодом, который используется рядом популярных (Dailymotion, Mininova, ThePirateBay, NetLog, и т.д.) и рядом мифических (СуперХабр) сайтов — наконец добрался до очередной release-версии.

Читать дальше →
Total votes 56: ↑56 and ↓0 +56
Views 1K
Comments 34

Поиск — это просто

Search engines *
Google, конечно, ищет хорошо, но корпоративные ресурсы вывешивать на открытый доступ нельзя, покупать google-mini с его ограничениями тоже не вариант. А поиск по базе внушительных размеров(4 гигабайта текстов, по которым и необходим поиск) надо. А если добаить к поиску по тексту еще и поиск по каким-то параметрам, то тут и google-mini не поможет и совсем страшно становится.

Но не стоит паниковать! На помощь нам приходит Sphinx — поисковый движок с открытым исходным кодом, который можно прикрутить практически к чему угодно не прилагая особых усилий

Читать дальше →
Total votes 93: ↑90 and ↓3 +87
Views 1.5K
Comments 124

AdMe.ru: Тэги, полнотекстовый поиск и всё такое…

Website development *
В этой статье я открою секреты того, как работает adme.ru, а именно я расскажу о том как устроено хранение статей и тэгов, как работает полнотекстовый поиск, поиск по тэгам и всё такое…

В статье приведён пример структуры таблиц, рабочий конфиг Sphinx и немного php кода с примерами выборок.
Читать дальше →
Total votes 71: ↑64 and ↓7 +57
Views 6.7K
Comments 32

Cakephp Sphinx behavior

PHP *
По долгу службы мне приходится работать с Cake и Sphinx. Однажды мне надоело делать поиск к сфинксу ручками, и я решил написать небольшой behavior.
Код и примеры
Total votes 36: ↑27 and ↓9 +18
Views 1.5K
Comments 8

Организуем релевантный поиск по разнородным данным с помощью Sphinx

Sphinx *
В одном из текущих проектов возникла задача поиска по данным разного типа, которая была успешно решена с помощью зарекомендовавшей себя поисковой машины Sphinx, но обо всем по порядку. 

Постановка задачи


В проекте есть на данный момент 2 зоны:
  1. географическая зона, реализованная на базе Google Maps, которая отображает нанесенные пользователями на карту географические объекты (маркеры, маршруты и области);
  2. информационная зона, которая представляет собой большой иерархически организованный каталог, содержащий информационные материалы.
Необходимо было решить задачу одновременного текстового поиска по 3-м типам объектов: географическим объектам, категориям информационной зоны и материалам информационной зоны — c возможностью фильтрации по дате публикации объектов и категориям, к которым они относятся.
Решаем задачу
Total votes 44: ↑44 and ↓0 +44
Views 20K
Comments 41

Прогрессивные технологии, как способ выжать из сервера максимум

Server optimization *

Вступление


Просто красивый rrdtool =)
Забавно, но когда программист разрабатывает какой-либо продукт, он редко задумывается над вопросом могут ли на одну кнопку в один момент времени нажать одновременно 2000 человек. А зря. Оказывается могут. Как ни странно но большинство движков, написанных такими программистами, очень плохо ведут себя под большими нагрузками. Кто бы подумал, а всего один лишний INSERT, не проставленный index, или кривая рекурсивная функция могут поднять load averages чуть ли не на порядок.

В этой статье я опишу как мы, разработчики проекта, сумели выжать из одного сервера с Pentium 4 HT / 512Mb RAM, максимум, держа одновременно 700+ пользователей на форуме и 120,000 на трекере. Да, проект этот — торрент трекер. Предлагаю сразу оставить в стороне разговоры о копирайтах и правах, мне это не интересно, что действительно интересно — это HighLoad.
читать дальше
Total votes 318: ↑314 and ↓4 +310
Views 11K
Comments 184

Advanced Ultrasphinx: теги и фильтры

Lumber room
На хабре уже писали о интеграции Rails с великолепной поисковой системой sphinx
Rails+Sphinx=? Часть I
Rails и Sphinx.
В этой статье постараюсь рассказать о дополнительных возможностях плагина Ultrasphinx


Дальше
Total votes 2: ↑1 and ↓1 0
Views 213
Comments 0

Про что рассказать?

«Sphinx Technologies Inc» corporate blog Sphinx *
Смотрю, блог про Сфинкс почти мертвый.
Можно пробовать это исправить, и довести блог до состояния хотя бы полумертвого.

О чем интересно было бы почитать?
Туториалы для совсем начинающих не предлагать, не смогу.

Для затравки, и заодно в порядке спама.
Все уже знают, что свежий Сфинкс умеет прикидываться mysql сервером, и соотв-но никакой API не нужен?
Все уже знают, что запросы теперь можно писать в виде SELECT * FROM index WHERE MATCH('test')?
Все уже знают, как легко и непринуждено делать подсказки и-или автокоррекцию слов?
Все уже знают, что наконец появился открытый репозиторий для самых бесстрашных? :)
Total votes 81: ↑71 and ↓10 +61
Views 2.6K
Comments 110

Sphinx и MSsql: проблемы… (fixed: уже нет проблем;-)

Sphinx *
Вчера мы пытались настроить работу между Sphinx и MSsql, начали возникать непонятки)
Версия ПО: Sphinx 0.9.9-rc2
ОС: Windows 2003 Server Standard Edition x86 SP2
БД: MSSQL Server 2008 Enterprise x86 SP1
У используемой базы Collation — Cyrillic_General_CI_AS

С основными настройками и с запуском самого сервиса проблем не возникло.
Читать дальше →
Total votes 2: ↑1 and ↓1 0
Views 2.7K
Comments 7

Как готовить SphinxQL

«Sphinx Technologies Inc» corporate blog Sphinx *
По заявкам трудящихся, расскажу про две новых мега-фичи в Sphinx. Предложения тем для последующих рассказов можно засылать в комментарии.

Обе фичи добавлены в версии 0.9.9-rc2, опубликованной в начале апреля 2009го. Версия традиционно (слишком) стабильная, известных серьезных багов нету, тесты проходятся, итп. Отважные люди, а также коммерческие клиенты с контрактами про поддержку, уже успешно используют в продакшне, несмотря на отличный от «release» тег.

1я мега-фича. Теперь Sphinx поддерживает сетевой протокол MySQL (внутренней версии номер 10, которую поддерживают все версии сервера и клиента, начиная с MySQL 4.1 и по MySQL 5.x включительно).

Читать дальше →
Total votes 88: ↑86 and ↓2 +84
Views 41K
Comments 80

Мне кажется, я начал понимать, что ты имела в виду!

«Sphinx Technologies Inc» corporate blog Sphinx *
Опечататься дело нехитрое; опечататься в поисковом запросе так и вдвойне. Почитай все большие веб-поисковики сегодня умеют корректировать ошибки в ключевых словах во-1х и подсказывать запросы во-2х; вслед за ними того же хочется поискам поменьше. Обе штуки можно ловко реализовать при помощи открытого поисковика по кличке Sphinx; в этом посте расскажу, как конкретно.

Ну, за did you mean («что ты имела в виду») и прочий query completion («уж не Васю ли ты ищешь»).
Читать дальше →
Total votes 84: ↑75 and ↓9 +66
Views 30K
Comments 24

Добавляем Sphinx к Денверу

Website development *
Всем привет!

Сделал небольшой аддон к Денверу. Решил поделиться. Теперь при старте он запускает Sphinx, а при стопе выключает его. Версия: Денвер-3 2008-01-13.

Можно было добавить в denwer/scripts/main/start/ файл.bat, где просто написать пару команд для его запуска. Правда, чуть сложнее с остановкой. Но хочется, чтобы было все красиво. Со словами «Запускаем… Ждем 2 секунды… Готово...» Красота!

Итак.
Читать дальше →
Total votes 11: ↑8 and ↓3 +5
Views 4.1K
Comments 10

Как устроено ранжирование

«Sphinx Technologies Inc» corporate blog Sphinx *
Со временем Sphinx оброс большой кучей режимов поиска и ранжирования. Регулярно возникают вопросы про разное (от «как вытащить документ на 1е место» до «как рисовать от 1 до 5 звездочек в зависимости от степени совпадения»), которые на самом деле суть вопросы про внутреннее устройство тех режимов. В этом посте расскажу все, что вспомню: как устроены режимы поиска и режимы ранжирования, какие есть факторы ранжирования, как в точности рассчитываются факторы, как финальный вес, все такое. И, конечно, про звездочки!
Читать дальше →
Total votes 52: ↑48 and ↓4 +44
Views 23K
Comments 43

Ищем втрое быстрее: мульти-запросы и фасеточный поиск

«Sphinx Technologies Inc» corporate blog Sphinx *
В сегодняшней статье расскажу про фичу Sphinx под названием мульти-запросы: встроенные в нее оптимизации, реализацию тн. фасеточного поиска, и вообще как иногда можно с ее помощью сделать поиск втрое быстрее.

Но сначала 15 секунд политинформации (сам себя не похвалишь, никто не похвалит). В этом году Sphinx прошел во второй тур конкурса Sourceforge Awards 2009 в номинациях SysAdmins и Enterprise (говорят, в номинации Developers не добрали совсем чуть-чуть). Голосование продлится еще неделю (до 20го числа). Кроме рабочего email адреса, ничего не нужно. Заранее спасибо всем, кто не даст нам пропасть!

И обратно к разработке. Что вообще такое мульти-запросы, и откуда берется обещанное втрое быстрее?
Читать дальше →
Total votes 46: ↑45 and ↓1 +44
Views 12K
Comments 20

Sphinx — не только для поиска!

Sphinx *

Думаю, про такой замечательный поисковый движок Sphinx слышали все или почти все. Наверняка многие уже применяют его, для поиска по сайту, для выборки похожих статей, новостей, товаров и т.д. Он отлично справляется с поисковыми задачами даже на очень больших количествах записей. Но, в своей статье я хочу рассказать про использование Sphinx не для поиска.
Читать дальше →
Total votes 64: ↑59 and ↓5 +54
Views 9.8K
Comments 31

PHPConf 2009 — темы докладов от авторов PHP, MySQL, Zend, Sphinx, Pinba,

Website development *
Присланные тезисы на PHPConf 2009, которая пройдет 8,9 октября 2009 в Москве
www.phpconf.ru/reg — регистрация уже открыта
image

День первый – WebArchitect WorkShop Day 8 октября (чт)
Это день полностью состоящий из мастер-классов. Их прочитают признанные гуру. Каждый мастер-класс могут посетить не более 30 человек. На данный момент планируется 3 потока по 6 часов. Каждый мастер-класс длительностью от 1,5 до 6 часов.

День второй – PHPCONF 2009 9 октября (пт)
Пополните ваши знания! Что нового произошло за 1,5 года? Какие методики разработки стали общепринятыми в профессиональной среде? Как их внедрить малой кровью? Как повысить эффективность вашей работы и работы вашей команды в разы?


Главные новости PHP 5.3, о которых все говорят
Johannes Schluter

Главные новости PHP 5.3, о которых все говорят — это пространства имён (namespaces) и замыкания (closures). Однако, в PHP 5.3 есть и много другого нового фунционала, который делает этот релиз значительной вехой в истории проекта: модули Intl, Phar, mysqlnd, улучшения в SPL, позднее статическое связывание (late static binding) и много другое.
Читать дальше →
Total votes 49: ↑41 and ↓8 +33
Views 1K
Comments 38