OneArt 23 июн 2014 в 08:21

ElasticSearch — агрегация данных

10 мин

55K

Блог компании SmartProgressNoSQL*Поисковые технологии*

Туториал

+18

Комментарии 8

Ordos 23 июн 2014 в 09:31

Спасибо! Как раз недавно начал смотреть ES для разнообразия.
У меня вопрос по terms aggregation. Когда я пробовал его использовать, он группировал документы не по значениям поля, а по словам в нем. Хотя, как мне кажется, чаще нужно именно первое. Где-то видел рекомендацию отключать анализ этого поля, но как тогда по нему искать… Как правильнее поступать в такой ситуации?

OneArt 23 июн 2014 в 10:09

Красивого решения одним параметром я не нашел. Как вариант если это что-то вроде категорий, то присваивать им ID и группировать по ID.
Если же это невозможно, а выключать аналайзер очень не хочется, то можно продублировать это поле, одно указать в маппинге без анализатора, а второе как нужно.

Всё таки стоит рассматривать ES больше как поиск, чем точная обработка и работа с данными. Как показывает практика, объединение даёт отличный результат на большом объеме данных, группирую документы максимально релевантно.

Ordos 23 июн 2014 в 11:26

Да, видимо в этом случае действительно только по id группироваться. Получается сами значения нужно вытаскивать из другого источника данных и это нормальная практика для ES?
Просто странно, что нет простого способа сгруппироваться по самому значению, хотя в самом ES оно хранится. Видимо отсюда следует, что вместе с каждой группой нельзя вытащить дополнительные поля. (Что-то вроде select foo_id, foo_name from bar group by foo_id — группировка только по id, а вытаскиваем ещё и name)

Lol4t0 23 июн 2014 в 16:36

можно сделать вложенное поле, которое не будет анализироваться. При этом храниться будет только одна копия данных и задавать можно только внешнее поле

"text" : {
            "type" : "string",
            "analyzer" : "russian_morphology",
            "fields" : {
              "raw" : {
                "type" : "string",
                "index" : "not_analyzed"
              }
            }
          }

OneArt 23 июн 2014 в 17:03

Блин, про такой метод я, конечно, знал, а вот про то, что он не дублирует информация — забыл. Спасибо)

kay 23 июн 2014 в 11:25

Хотелось бы в следующих статьях узнать поподробнее о связке elasticsearch — hadoop. В частности реально ли скрестить logstash/elasticsearch/kibana с hadoop для повышения скорости работы по аналитике логов.

Diatlo 23 июн 2014 в 11:58

На заглавной картинке изображен крупный агрегатор в погоне за клиентами? ))

OneArt 23 июн 2014 в 12:17

Скорее мы с вами(акулы), когда пытаемся собрать миллионы информации в единый поток.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий