brujeo Jul 23 2011 at 11:59

Быстрый полнотекстовый поиск ElasticSearch

6 min

220K

Website development *

From sandbox

+56

Comments 61

Bas1l Jul 23 2011 at 12:03

А чем вам не угодил Lucene? Всем требованиям удовлетворяет, есть обертки под все популярные языки. А уж о качестве и говорить нечего: даже твиттер на него перешел.

Dzen_Marketing Jul 23 2011 at 12:18

Или Sphinx или Solr

andoriyu Jul 23 2011 at 18:31

> Sphinx

Спасибо, не надо.

squint Jul 23 2011 at 19:03

+1
глядя на результаты поиска по Хабру — связываться со Sphinks нет никакого желания… хотя конечно виной тому могут быть кривые руки программистов ТМ

aymeshkov Jul 23 2011 at 20:28

Очень зря, судите лучше по поиску ребят, перечисленных вот здесь:
http://sphinxsearch.com/info/powered/

klepton Apr 2 2012 at 19:00

Использую сфинкс уже года четыре. Во многих проектах. Принципиальных претензий нет. Скорость просто замечательная! Жаль, что в качестве ключа нельзя использовать текст.

lampslave Jul 23 2011 at 12:18

«Что же это такое? По сути — это новый фронт-енд к широко известному индексу Lucene.»
Автор как бы намекает…

anycolor Jul 23 2011 at 12:49

тогда автор неправильно создал название топику, т.к. поисковым движком тут не пахнет, просто обертка над ним.

ingspree Jul 23 2011 at 14:41

Lucene — это не поисковый движок, это библиотека для написания поисковых движков.

anycolor Jul 23 2011 at 14:48

с этим я согласен, т.к.:

anycolor Jul 23 2011 at 14:48

блин, парсер съел:

Lucene itself is just an indexing and search library and does not contain crawling and HTML parsing functionality.

ingspree Jul 23 2011 at 14:51

Да кравлинг и парсинг хтмл тут не при чëм. Люцен — это не демон, у него нет никакого внешнего интерфейса, и т.п. Он умеет строить индексы и по ним искать, и только этим и занимается. Кроме того, эластиксëрч, например, неплохо реализует реалтаймовый поиск, с чем солр не очень справляется — так что свойства поисковика определяются не только библиотекой.

Короче, нормальный заголовок, хотя статья фактически ни о чëм — намного интереснее почитать блог-посты на сайте эластиксëрча.

anycolor Jul 23 2011 at 14:55

я так понял, что ты используешь его?

Напиши статью, будет интересно сравнить, например, с тем же sphinx (понимаю, что полноценно не сравнить) из личного опыта (если конечно ты сфинкс использовал).

ingspree Jul 23 2011 at 15:04

Не, но игрался. Я сейчас использую сфинкс, а не его, только потому, что сфинкс мало памяти ест (эластиксëрч на старте от 100 мб, для маленького впс неприятно ;).

Но у эластика есть куча приятных фич, которых в сфинксе нет никак, можно вот посмотреть в их постах:

www.elasticsearch.org/blog/2011/05/13/data-visualization-with-elasticsearch-and-protovis.html
www.elasticsearch.org/blog/2011/02/08/percolator.html
www.elasticsearch.org/blog/2011/02/08/versioning.html
www.elasticsearch.org/blog/2010/08/16/geo_location_and_search.html

anycolor Jul 23 2011 at 15:05

так вроде ж геолокейшн есть и в сфинксе

ingspree Jul 23 2011 at 15:13

Та есть, но он убог. В эластике можно искать на каком-то расстоянии, в ограничивающем прямоугольнике, в полигоне. А в сфинксе только ранжировать на расстоянии, насколько я понимаю, и всë. :(

anycolor Jul 23 2011 at 21:28

ты смотрел последние беты сфинкса?

ingspree Jul 23 2011 at 21:35

Ну, 2.0.1-beta. Я даже доку еще раз перелистал. Либо ничего нет, либо только ранжирование.

anycolor Jul 23 2011 at 14:49

Я больше о несоответствии названия топика его содержимому, с Lucene никогда не работал, поэтому этот ньюанс от меня ускользнул :)

anycolor Jul 23 2011 at 14:50

хотя даже в википедии написано, что:

ElasticSearch – A Distributed, Highly Available, RESTful Search Engine.

Кому интересно верить. :)

ingspree Jul 23 2011 at 14:52

Мне верить, википедии верить. Я сказал, что люцен — не полноценный движок, что не противоречит тому, что эластиксëрч — он самый.

anycolor Jul 23 2011 at 14:56

я о том, верить ли названию топика или википедии :) Впрочем, ответ уже понятен :)

Bas1l Jul 23 2011 at 22:35

Позволю себе не согласиться с этим (цитата с офф сайта: «Apache Lucene(TM) is a high-performance, full-featured text search engine library»). Lucene предоставляет сам по себе вполне удобный апи. На одном из проектов, на котором я работал, мы использовали чисто его (Lucene.NET, точнее), без Solr или ElasticSearch, и весьма успешно.

В конце концов, Solr или ElasticSearch--это всего лишь обертки (Facade, Wrapper, Adapter--как хотите) для Lucene, вызовы функций которых выполняются через Remote Procedure Call. Ничто вам не мещает написать свою обертку на любимом языке программирования и вызывать ее методы локально.

Но, на мой взгляд, необходимости в этом часто нет--опять же, интерфейс Lucene очень хорош сам по себе.

ingspree Jul 23 2011 at 22:37

" search engine library" — слово «library» тут ключевое. Вы использовали Lucene.NET как раз потому, что Lucene без полноценного сервера использовать не могли.

В любом случае, они-то конечно обëртки, но поведение у них весьма разное.

Bas1l Jul 23 2011 at 13:14

Виноват, пропустил эту строчку. С другой стороны, как пишут в комментарии ниже, действительно, название не совсем соответствует предмету обсуждения.

ingspree Jul 23 2011 at 14:42

Lucene — это либа, на которой построены Solr и Elasticsearch.

aleks_raiden Jul 23 2011 at 13:43

Мне кажеться, сравнивать с Zend_Search_Lucene не совсем корректно — это все же не самостоятельный продукт, а просто РНР-порт (с учетом ограничений и особенностей) и работает как просто библиотека, а не самостоятельный сервис (хотя используя его можно написать аналог еластиксерча на РНР)

brujeo Jul 23 2011 at 21:59

Полностью с вами согласен… поэтому в данной статье я просто хотел ознакомить читателей хабра с этим движком и не старался сравнивнивать его с конкурентами. Было бы очень интересно почитать про сравнение Elasticsearch с тем же Solr, Sphinx, Xapian и т.д.

CKOPOBAPKuH Jul 23 2011 at 13:59

о каком вообще измерении скорости может идти речь, если вместо curl_init или на худой конец fsockopen вы делаете exec('curl -XPUT \'http://localhost:9200/habrahabr/users/'. $id. '\' -d \'… )? вы понимаете, время чего именно вы измеряете?

CKOPOBAPKuH Jul 23 2011 at 13:59

какой-то детский сад штаны на лямках

ComodoHacker Jul 23 2011 at 15:51

Как со стеммингом и морфологией? Русской, в частности?

dmitry_vk Jul 23 2011 at 18:04

Elasticsearch может использовать snowball, который поддерживает русский язык.

ComodoHacker Jul 23 2011 at 19:44

Спасибо. Надо попробовать.

ksurent Jul 24 2011 at 08:47

По сравнению с английским, весьма криво поддерживает, надо сказать.
Приходилось иногда вручную подчищать резльутаты, т.к. некоторые суффиксы им игнорировались начисто.

Пример из кода:

# if adjective

my $stemmer = Lingua::Stem::Snowball->new(lang => $self->{locale}{lang}, encoding => 'UTF-8');

$stemmed = $stemmer->stem($self->{query});

$stemmed =~ s{$_$}{} for qw(ец ск ий); # these are most common suffixes that are not processed by Porter's snowball

WoZ Oct 16 2011 at 11:35

А у Вас опыт продакшн использования ElasticSearch был?

ksurent Oct 21 2011 at 13:40

Сейчас крутится в продакшене в качестве поисковика по структурированным документам. В будущем будет задействован и для полнотекстового поиска.

ComodoHacker Jul 23 2011 at 16:12

Multi-tenancy — это нисколько не «гибкость в настройках под индивидуального пользователя», если верить Гуглу, Вики и другим.

brujeo Jul 23 2011 at 21:40

согласен, не самое точное определение. Но, по-моему, оно отображает суть термина
http://ru.wikipedia.org/wiki/Multitenancy

AterCattus Jul 23 2011 at 17:57

было
$generator->run(5000000);
получили
«count»: 5128888,

чему верить?

brujeo Jul 23 2011 at 21:44

Я не очистил индекс перед запуском скрипта и в индексе остались проиндексированные данные предыдущих тестов (128888 записей). Думаю это нисколько не повлияло на результаты теста.

lega Jul 23 2011 at 18:10

Все примеры — поиск по полям (имя, страна...), приведите пример полнотекстового поиска, речь же об этом.

pfalcon Jul 23 2011 at 20:16

Тоже видел ElasticSearch, тоже понравился. Предлагал на пару проектов, но пока все приросли к Solr. Ничего, думаю, наберет популярность, все, что есть в Solr, вроде бы есть и в нем, но конфигурируется более удобно/динамично, и есть то, чего в Solr нет или только будет, может в виде не слишком красивой прилуды.

stas_agarkov Jul 24 2011 at 07:13

А Sphinx чем не устраивает?

aleks_raiden Jul 24 2011 at 08:57

это разные вещи (кроме базы — поискового движка). у сфинкса при всех его достоинствах, нет REST и JSON интерфейса

stas_agarkov Jul 24 2011 at 10:07

А зачем он? У Sphinx есть клиент, который отдает id-шники найденных документов. Потом взял их в базе и все.

aleks_raiden Jul 24 2011 at 10:09

для того чтобы поиск был отдельным. И универсальный интерфейс доступа, не связанный с конкретикой реализации записи.

К еластиксу можно обращаться напрямую с веб-страницы, получая в виде JSON результат.

stas_agarkov Jul 24 2011 at 12:30

А Sphinx можно встроить в MySQL как плагин и использовать его прямо в SQL-запросах. :)

ksurent Jul 24 2011 at 08:56

Тем, кто всерьез интересуется, но пока еще сомневается: у вас есть шанс пообщаться с одним из разработчиков ElasticSearch на конференции YAPC::Europe. Конференция пройдет в Риге, с 13 по 15 августа.
yapceurope.lv/ye2011/talk/3371
yapceurope.lv/ye2011/talk/3372

ksurent Jul 24 2011 at 10:05

Виноват, с 15 по 17.

aleks_raiden Jul 24 2011 at 08:57

Кстати, еще один вариант применения: java.dzone.com/articles/jetslide-uses-elasticsearch

Agel_Nash Jul 24 2011 at 21:02

Если информация о том, что есть подобные движки пойдет в массы, то тогда можно ждать новых поисковиков тима ВЯндексе, ВГугле, ВРамблере и т.п.

akalend Jul 24 2011 at 21:15

>К сожалению, никакой информации на русском языке я найти не смог.
Напиши Андрею Змиевскому письмо, он ответит на все твои вопросы. Лмчно знаю его, очень дружелюбный…

akalend Jul 24 2011 at 21:31

слайды
www.slideshare.net/andreizm/99-problems-but-the-search-aint-one-7069783
www.slideshare.net/elasticsearch/elasticsearch-at-berlinbuzzwords-2010

akalend Jul 24 2011 at 21:35

что было бы действительно интересно Хабросообществу — эта сравнение со Сфинксом,
что такого может эластик-сеач, чего не может сфинкс. Если сказать, что сфинкс не может JSONто это дело двух дней и небольшой демонёнок sphinx-proxy сможет понимать JSON
меня интересует функционал и скорость.

david_mz Jul 25 2011 at 12:05

Как минимум, невооружённым глазом видны «живые» апдейты и даже больше — “realtime get” ( github.com/elasticsearch/elasticsearch/issues/1060 )

akalend Jul 25 2011 at 16:47

это не показатель
меня функционал интересует, частично информацию подчерпнул из обсуждения, что нужно было упомянуть в статье обязательно: эластик-сёрч — это REST обертка основанная на поисковом движке Lucene.
По сравнению с Lucene, Sphinx дает +10 очков

david_mz Jul 25 2011 at 18:41

Для Вас не показатель, для меня показатель. То, что эластик — фронтенд к люцену, написано явным образом в статье.

selff Jul 28 2011 at 08:00

примерчик бедненький, подскажите,
вот в сфинксе можно назначить вес полям записей при индексации,
ну например «Заголовок_резюме» более значим чем «Опыт_работы» (указываем коэф.),
а в Эластике (Люценте) можно так индексировать?

M0sTH8 Dec 26 2012 at 14:54

Да, можно. www.elasticsearch.org/guide/reference/api/search/index-boost.html

najoory Jan 31 2013 at 09:06

Сколько занимает на диске подобный индекс?

Cher Mar 6 2014 at 11:50

Мы кстати сделали hosted ElasticSearch со множеством плюшек вокруг: http://indexisto.com/ )
Есть готовая AJAX строка поиска которая поддерживает кучу всего из стандартного ответа кластика: фасеты, сортировки, хайлайт, саджесты