alexbeletsky May 16 2014 at 18:58

Переходим от MongoDB Full Text к ElasticSearch

6 min

30K

Likeastore corporate blog Search engines *NoSQL *

+25

Comments 22

mkuzmin May 16 2014 at 20:07

Неделя эластика на хабре. Недавно опубликовал перевод статьи Elasticsearch как NoSQL база данных.

Я сам делаю проект percolator.io. Подробнее можно почитать в предыдущей статье.

Если есть вопросы по эластику, управлению конфигурацией сервера — буду рад помочь.
Использую rails, reactjs, postgresql, ansible, digitalocean.

david_mz May 17 2014 at 00:34

Вот у меня вопрос. Как в Эластике делается русская морфология? Возможно ли без перекомпиляции плагинов добавить новое слово в морф. словарь или как-то ещё его изменить?

mkuzmin May 17 2014 at 07:19

Русская морфология делается с помощью плагина. Я не нашел в документации ничего про добавление словарей для этого плагина. Возможно, твою задачу можно решить другом способом. Посмотри как работает analysis. Там очень много возможностей по обработке текста.

Limfocit May 17 2014 at 14:38

Можно сделать мэппинг для нужного поля(анализатор из коробки без плагина):
{ «properties»: { "<имя поля>": {«type»: «string», «analyzer»:«russian»}}}

david_mz May 18 2014 at 19:44

Сорри, я в эластике (и в джаве) совсем нулевой, поэтому можно чуть подробнее?

Таким образом мы к полю подключаем русский анализатор, правильно? Он наверняка основывается на каком-то словаре. Словарь этот неполон (полных словарей не бывает). Предположим, у меня на сайте активно используется слово «кракозябра», которой в словаре нет, и я хочу, чтобы она правильно (со всеми словоформами) обрабатывалась Эластиком. Как это сделать? В сфинксе я правлю айспелловский словарь и переиндексирую базу. А как в Элестике?

По беглому изучению плагинов Эластика у меня сложилось впечатление, что словари в них вкомпилены намертво, и чтобы их изменить, надо всё пересобирать. Это не так (надеюсь)?

Limfocit May 18 2014 at 21:50

К сожалению я не профи пока в ES. Мне нужно было подключить русскую морфологию, это способ ее подключения. Насчет словарей — затрудняюсь сказать. Задача была простой — чтобы адекватный поиск был, а не так что «наука» и «науки» разные слова.

mkuzmin May 18 2014 at 22:07

www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-hunspell-tokenfilter.html

david_mz May 19 2014 at 21:37

О, большое спасибо. Именно то, что нужно.

alexbeletsky May 17 2014 at 10:11

спасибо большое… если не сложно, бросьте письмо на ceo@likeastore.com — с радостью пообщаюсь :)

-4

igorshubovych May 17 2014 at 01:50

Поправьте


java -version # с одним дефисом

gotlium May 17 2014 at 05:38

Все это время я присматривался к специализированным поисковым хранилищам, как ElasticSearch, Solr или Shpinx.

Почему к примеру не Sphinx? Приведите какие-то доводы и аргументы. Или же в итоге так и не дошли руки?
Давно использую Sphinx во многих проектах. Часто возникает потребность в использовании весов для определенных полей, что очень нужно и полезно.

alexbeletsky May 17 2014 at 10:10

Одна из причин, это вот. А так, по эластику мне понравилась документация, HTTP API и Lucene основа.

mkuzmin May 17 2014 at 10:39

В эластике есть куча возможностей: агрегационные функции, percolate api, много плагинов, легкое масштабирование. Насколько я помню, то сфинкс сам переодически забирает данные из базы. А в эластик нужно отсылать документы вручную, соответственно, они появляются в индексе практически сразу. Тут больше гибкости: денормализация, можно модифицировать данные на основном языке(языке проекта). Хотя и есть механизм river, о нем есть упоминание в статье.

Из плагинов полезные: морфология, определение языка.

Ответ потянет на отдельную статью. Хотя, думаю, можно найти сравнение elasticsearch, solr, sphinx, mongodb, postgresql…

Лично мне понравилась документация(я ее 2 месяца активно изучал), rest api, отличные возможности по аналитике.

Еще есть kibana — отличный помощник в аналитике. Советую посмотреть видео. Рашид в кепке великолепен)

Antti May 18 2014 at 12:01

Тут нечего сравнивать. Sphinx по сравнению с ElasticSearch — детская поделка, причем довольно глючная.
Перевел все свои проекты с sphinx на ElasticSearch. В одном проекте промежуточным этапом был Solr, но потом в итоге ElasticSearch.

-2

vorbiz May 17 2014 at 08:30

sudo apt-get install openjdk-6-jre

Вот это вы очень зря. Практика показала, то только sun-java-7 или как его там. У openjdk наблюдаются проблемы с переполнением памяти, как кучи, так и direct. GC может не справляться.

mc_dir May 19 2014 at 10:26

А не могли бы вы пояснить, что значит

каждый такой insert влечет за собой ре-калькуляцию полнотекстового индекса

veitmen May 19 2014 at 16:28

Это означает, что после вставки нового элемента, индекс меняется. Вот обновление\перестройка\рекалькуляция индекса необходима для того, что бы индекс был в актуальном состоянии.

mc_dir May 19 2014 at 16:42

Весь индекс, или только его часть, затрагивающая измененные данные? Просто момент принципиальные. Сфинск например, умеет индексировать только новые данные и делает это ооооочень быстро. Как с этим у ElasticSearch?

veitmen May 19 2014 at 17:07

А, вы в целом понимаете что такое рекалькуляция индекса, я не верно понял Ваш вопрос. :) Детали по ElasticSearch я рассказать не могу. Подождем автора.

alexbeletsky May 19 2014 at 17:14

Цитата, которую вы выделили, относится к MongoDB… и ее абсолютно правильно прокоменнировал veitmen

Что касается, апдейта индекса в ElasticSearch — к сожалению, глубоких технических подробностей я не знаю (пока), но по поведению вижу, что все вставки в индекс очень быстрые и таких симптомов как MongoDB, Elastic явно не испытывает.

mc_dir May 19 2014 at 16:42

del

hipoint May 21 2014 at 21:10

Для автоматического обновления индекса можно использовать стандартный river с подключенным JDBC драйвером для MongoDB. Обновление по расписанию.
Например:

curl -XPUT 'localhost:9200/_river/my_jdbc_river/_meta' -d '{
    "type": "jdbc",
    "jdbc": {
        "strategy": "simple",
        "versioning" : true,
        "autocommit" : true,
        "schedule": " * * 0/1 * * *",
    }
}'