Pull to refresh
  • by relevance
  • by date
  • by rating

Публичные данные 1,2 млрд пользователей были обнаружены на открытом Elasticsearch-сервере

Information Security *Search engines *Social networks and communities


Согласно информации издания Wired, специалисты в области информационной безопасности Винни Троя (Vinny Troia) и Боб Дьяченко (Bob Diachenko) обнаружили в сети открытый Elasticsearch-сервер, содержащий 1,2 млрд записей общим размером четыре терабайта. Сервер был расположен на площадке Google Cloud Service (у него был IP-адрес 35.199.58.125).
Читать дальше →
Total votes 21: ↑20 and ↓1 +19
Views 12K
Comments 14

Elastic меняет лицензии Elasticsearch и Kibana c Apache 2.0 на SSPL

Open source *Software IT-companies


14 января 2021 года Elastic объявила об изменении правил лицензирования своих продуктов. Новые версии платформы поиска, анализа и хранения данных Elasticsearch и web-интерфейса Kibana будут распространяться под несвободной лицензией SSPL 1.0 (Server Side Public License). Ранее они были под лицензией Apache 2.0.
Читать дальше →
Total votes 15: ↑13 and ↓2 +11
Views 10K
Comments 22

Amazon объявила о запуске форков Elasticsearch и Kibana

Open source *Amazon Web Services *Software

На прошлой неделе Elastic объявила, что изменит свою стратегию лицензирования программного обеспечения и не будет выпускать новые версии Elasticsearch и Kibana под лицензией Apache, версия 2.0 (ALv2). AWS заявила, что предпримет шаги для создания и поддержки форков Elasticsearch и Kibana.

Читать далее
Total votes 13: ↑4 and ↓9 -5
Views 4.8K
Comments 8

В сети был обнаружен зарубежный сервер Elasticsearch с базой СМС-сообщений, якобы, с номера 900, сейчас данные стерты

Information Security *Legislation in IT IT-companies


По информации телеграм-канал «Утечки иформации», в сети Интернет с 12 июня 2021 года находится в открытом доступе сервер Elasticsearch, в индексе которого содержатся СМС-сообщения, предположительно, отправленные с номера 900.

Комментарий от «Сбера» для Хабра: «компания провела проверку и выяснила, что это фейковые данные и они не имеют отношения к клиентам банка».
Читать дальше →
Total votes 26: ↑25 and ↓1 +24
Views 18K
Comments 19

Amazon переименовала Elasticsearch Service в OpenSearch Service

API *Legislation in IT IT-companies

Компания Amazon Web Services (AWS) выполнила обязательства и переименовала форк Amazon Elasticsearch Service в Amazon OpenSearch Service, поскольку ранее AWS и Elasticsearch BV поссорились из-за лицензирования программного обеспечения с открытым исходным кодом Elasticsearch.

Напомним, Amazon запустила сервис аналитики и мониторинга в 2015 году, что привело к конкуренции с Elasticsearch BV, компании, созданной для коммерциализации проекта.

Elasticsearch BV получила публичный статус в 2018 году. Годом позже AWS фактически заново создал проект Elasticsearch, выпустив собственную версию программного обеспечения под названием Open Distro for Elasticsearch.

В ответ на это Elasticsearch BV подала иск на Amazon из-за неправомерного использования копирайта. Судебные разбирательства все еще не завершены.

В январе 2021 года генеральный директор и соучредитель Elasticsearch BV Шей Бэнон объявил, что проекты ElasticSearch и Kibana откажутся от лицензии Apache 2.0 с открытым исходным кодом в пользу Elastic и общедоступной серверной лицензии без открытого исходного кода (SSPL).

Читать далее
Total votes 10: ↑10 and ↓0 +10
Views 1.3K
Comments 0

Полнотекстовый поиск в Grails

Groovy & Grails *
Подключить полнотекстовый поиск в Grails — задача довольно легкая. Для этого используется плагин Searchable, который делает все сущности Grails-приложения индексируемыми. Searchable позволяет абстрагировать весь процесс индексирования и поиска. При этом сам плагин использует библиотеку Compass, которая следит за тем, чтобы при изменении объекта (т.е. при сохранении в БД) он автоматически переиндексировался. Сам по себе Compass по сути является довольно мощным средством «поискового ORM»:
Читать дальше →
Total votes 6: ↑6 and ↓0 +6
Views 3K
Comments 0

Быстрый полнотекстовый поиск ElasticSearch

Website development *
Sandbox
image
При разработке высоконагруженных сайтов или корпоративных систем частенько возникает проблема с разработкой быстрого и удобного поискового движка. Ниже перечислены наиболее важные, на мой взгляд, требования к такому движку:

  • Скорость
  • Простота установки и настройки
  • Цена (желательно бесплатно и с открытым кодом)
  • Обмен информацией в формате JSON (по HTTP)
  • Масштабируемость (возможность распределения на несколько серверов)
  • Индексация в режиме реального времени
  • Multi-tenancy (гибкость в настройках под индивидуального пользователя)
  • Возможность переноса системы в облако

Хочу рассказать вам о новом поисковом движке Elasticsearch, который полностью удовлетворяет всем этим требованиям. В статье будет краткое описание, ссылка на авторитетную презентацию, а также описание установки и работы с ним.
Читать дальше →
Total votes 69: ↑63 and ↓6 +57
Views 210K
Comments 61

NoName Podcast S04E05

Self Promo

Вместо вступления


Подкаст вышел с опозданием, поскольку мы ждали, когда мне вернут микрофон. На момент записи его так и не отдали, поэтому меня слышно не очень хорошо, выводы сделали, своих ошибок повторять не будем.
Таинственный образом с хабра пропал «подкаст», поэтому слушайте нас на rpod-е.
Читать дальше →
Total votes 33: ↑29 and ↓4 +25
Views 845
Comments 1

Просмотр архивных логов apache c помощью Logstash+Elastisearch+Kibanа

System administration **nix *Apache *
Recovery mode
Tutorial
Приветствую.

Нет так давно передо мной встала задача пробежаться по старым логам apache. Надо было сделать выборку по нескольким IP адресам, отыскать некоторые аномалии и попытки SQL-injection'ов. Логов было не так много, порядка миллиона строк и можно было спокойно всё сделать стандартным набором grap-awk-uniq-wc итд.

Поскольку я уже какое-то (больше года) время пользуюсь связкой Logstash-Elasticsearch-Kibana для анализа-просмотра всевозможных логов, то решил ей воспользоваться и в данной ситуации.

Краткое описание основных компонентов системы.

Logstash — бесплатная open-source программа на java для сбора и нормализации логов. Может принимать логи либо с локальных файлов, либо через tcp/udp порты. На момент написания статьи, разных входных (input) фильтров насчитывается 26. Есть даже входной модуль, для сбора сообщений из twitter'а или irc.

Elasticsearch — бесплатный open-source поисковый сервер основанный на Apache Lucene. Быстрый, легко настраиваемый и очень масштабируемый.

Kibana — веб-интерфейс написанный на ruby, для отображения данных из Elasticsearch. Простая настройка, но множество функций — поиск, графики, stream.

Читать дальше →
Total votes 15: ↑14 and ↓1 +13
Views 46K
Comments 25

Github полностью переработал поиск

Website development *Git *Version control systems *


В среду, 23 января, Github запустил новый, значительно переработанный и улучшенный поиск кода, репозиториев и разработчиков. Теперь инфраструктуру обеспечивает кластер серверов ElasticSearch, который индексирует весь добавляемый код на лету, заметно переработан интерфейс, и, самое главное, есть много функциональных улучшений.
Читать дальше →
Total votes 66: ↑60 and ↓6 +54
Views 17K
Comments 19

Как это сделано: префиксный поиск

VK corporate blog Website development *Search engines *
Мы живем во времена, когда кажется, что все просто и все есть. Нужно сделать масштабируемый проект — используем MongoDB, нужна очередь — вот RabbitMQ, нужно поднять функционал поиска — раз плюнуть: ставим Sphinx, Solr, ElasticSearch (нужное подчеркнуть).

Но здесь лишь доля правды: — при определенном везении можно поставить нужный сервер и все зашевелится. Загвоздка с поиском состоит в том, что пользователи уже порядком привыкли к высокой планке, которую задают «большие ребята», а тот поиск, что поднимется у вас «из коробки», будет явно недотягивать. И если очередь или базу данных вы можете добить железом прежде, чем будете оптимизировать, то поиск железом не добьешь.

Существую толстые книжки про настройки полнотекстового поиска, однако их мало кто читает. Сегодня я хотел бы на пальцах поговорить о том, что нужно учесть, когда вы делаете префиксный поиск с выводом результатов по мере набора слова или фразы.

Мы посмотрим, как с помощью нашего проекта http://indexisto.com сделан поиск на сайте http://maximonline.ru и сравним его с тем, что есть на других сайтах.

Для начала несколько примеров. Возьмем запрос «Битва за Лос Анджелес» и представим, что его напишут неправильно «Лос Анжелес биттва». Как видно, пользователь не знает точно, как пишется имя города, и забыл, как звучит название фильма, а также у него дрогнула рука в конце на слове «битва».

Выберем достойные проекты рунета, в которых есть префиксный поиск, и попробуем поискать там наш запрос:

Проект Правильный запрос Неправильный запрос
afisha.ru

все ОК

Не найдено
ivi.ru

все ОК

Не найдено
vk.com

все ОК

Не найдено
maximonline.ru

все ОК

все ОК

Читать дальше →
Total votes 103: ↑81 and ↓22 +59
Views 40K
Comments 37

Elastic Search в enterprise-проектах

2ГИС corporate blog Website development *Search engines *
В рамках этой статьи я поделюсь опытом использования Elastic Search во внутренних продуктах 2ГИС, в частности, в собственной системе для организации Call-центра. А также расскажу, какие проблемы мы смогли решить, используя этот поисковый движок.


Читать дальше →
Total votes 51: ↑50 and ↓1 +49
Views 54K
Comments 23

ElasticSearch 1.0 — новые возможности аналитики

VK corporate blog
Многие слышали о высокоуровневом поисковом сервере ElasticSearch, но не все знают, что многие используют его не совсем по прямому назначению. Речь идет о реалтайм-аналитике различных структурированных и не очень данных.

Эта статья также назрела ввиду того, что многие крупные интернет-проекты рунета в 2014 году получили письма счастья от Google Analytics с предложением заплатить $150 000 за возможность использовать их продукт. Я лично считаю, что ничего плохого в том, чтобы оплатить труд программистов и администраторов нет. Но при этом это довольно серьезные инвестиции, и, может, вложения в собственную инфраструктуру и специалистов, даст большую гибкость в дальнейшем.

Аналитика в ElasticSearch основана на полнотекстовом поиске и фасетах. Фасеты в поиске — это некая агрегация по определенному признаку. Вы часто сталкивались с фасетами-фильтрами в интернет-магазинах: в левой или правой колонке есть уточняющие галочки. Ниже пример тестового фасетного поиска у нас на главной странице http://indexisto.com/.



Буквально неделю назад вышла стабильная версия поискового сервера ElasticSearch 1.0, в которой разработчики настолько серьезно поработали над фасетами, что даже назвали их Aggregation.

Так как тема еще не освещалась на Хабре, я хочу рассказать, что из себя представляют аггрегации в ElasticSearch, какие возможности открываются и есть ли жизнь без Hadoop.
Читать дальше →
Total votes 81: ↑75 and ↓6 +69
Views 31K
Comments 19

Собираем и анализируем логи с помощью Lumberjack+Logstash+Elasticsearch+RabbitMQ

«Maxifier Development» corporate blog
Добрый день.

Логи часто и абсолютно не заслуженно обделены вниманием разработчиков. И когда программистам необходимо пропарсить log-файлы, иногда с нескольких десятков серверов одновременно, задача эта ложится на системных администраторов и отнимает у них много времени и сил.

Поэтому, когда случаются проблемы и надо найти ошибку в логах какого-нибудь сервиса, все зависит от того, насколько силен админ и насколько программисты знают, что искать. А еще от того, отработал ли logrotate и не грохнул ли он старые данные…

В таких ситуациях отлично помогает Logstash. Он активно развивается последний год, уже наделал много шуму, и на хабре, например тут и тут, достаточно статей о том, как его поставить и заставить работать на одном сервере. В этой статье я затрону Logstash в качестве сервера обработки, потому что, как агент, он по некоторым параметрам нам не подошел.

Почему? Maxifier представляет собой SaaS-продукт с клиентами в США, Бразилии, в нескольких странах Европы и в Японии, так что у нас около сотни серверов, раскиданных по всему миру. Для оперативной работы нам необходимо иметь удобный доступ к логам наших приложений и быстрый поиск ошибок в них в случае проблем на сторонних сервисах/api, появления некорректных данных т.д. Кстати, похожей системой сборки логов пользуются The Guardian (одни из наших клиентов).

После нескольких случаев сборки логов Rsync-ом со множества серверов мы задумались над альтернативой, менее долгой и трудоемкой. И недавно мы разработали свою систему сборки логов для разных приложений. Поделюсь собственным опытом и описанием, как это работает.
image
Читать дальше →
Total votes 35: ↑31 and ↓4 +27
Views 41K
Comments 19

Высоконагруженные сайты и приложения на Python / Django (29 проектов)

SECL Group corporate blog Website development *Python *
Наша компания довольно давно занимается разработкой больших веб-приложений на Python / Django. В рунете крайне мало информации об этом замечательном языке программирования и фремворке на его основе. Мы решили исправить эту ошибку и рассказать о популярных высоконагруженных сайтах на этой технологии, а также дать много интересных технических подробностей. Для удобства сравнения сайтов между собой мы приводим еще и немного статистики к каждому из проектов. В целом сайтов на Python / Django, конечно, очень много в мире, мы охватим только наиболее интересные по нашему мнению.

Небольшая таблица известных проектов (на основе данных http://builtwith.com/), кликабельно:
Читать дальше →
Total votes 51: ↑43 and ↓8 +35
Views 120K
Comments 56

Умные закладки на основе Elasticsearch

Percolator.io corporate blog Website development *
Периодически стал замечать, что не могу найти нужную статью, которую видел раньше.
Вроде бы все просто — по запомнившимся сведениям статью можно легко найти. Но нет. Поиск в Google часто ничего не дает, т.к. я помню только обрывки содержимого, и поисковая выдача содержит много шума.

Актуально это и на работе. Для хранения и обмена полезными ссылками на разные Github проекты, статьи, сервисы раньше мы использовали Skype, но сейчас стали использовать для этих целей Yammer. Оба этих способа имеют свои недостатки. Основной недостаток Skype для обмена ссылками — это сложность поиска по истории. Проблема Yammer — он не индексирует текст статьи, а только сниппет. Ни один из них не имеет возможности автоматической категоризации.

В свободное время я написал приложение, специально заточенное для поиска статей. Его возможности:
  • добавление статьи одной кнопкой из браузера
  • автоматическая категоризация
  • русская и английская морфология
  • просмотр текста статьи
  • операторы поискового запроса

Читать дальше →
Total votes 17: ↑13 and ↓4 +9
Views 11K
Comments 12

Elasticsearch как NoSQL база данных

Percolator.io corporate blog Website development *NoSQL *
Translation
Может ли поисковый сервер Elasticsearch использоваться в качестве NoSQL базы данных? Положительный ответ позволит рассмотреть его различные свойства, в том числе и те, от реализации которых он отказался, чтобы стать одним из самых гибких, производительных и масштабируемых поисковых движков. Но для ответа на этот вопрос стоит сначала определиться с самим термином NoSQL, так как в зависимости от контекста он может трактоваться по-разному.

Что же все-таки такое NoSQL?


Разработчики NoSQL дают такое определение: база данных следующего поколения, характеризующаяся отказом от реляционности, распределенностью, открытостью исходных текстов и горизонтальной масштабируемостью. Назвать это определение точным, увы, нельзя.

Дело в том, что речь идет совсем не об SQL. Поясним. Язык запросов Hive явно был вдохновлен SQL. Это же можно сказать и о языке Esper, хоть он работает и не с потоками, а с отношениями. Интересна история PostgreSQL — изначально он назывался Postgres, в качестве языка запросов использовал Quel и являлся ORDBMS, а сегодня PostgreSQL обладает многими функциями, которые позволяют ему быть документноориентированным хранилищем.

В данном случае речь идет не о ACID — в определении NoSQL о транзакциях ничего не говорится. Hyperdex — это база NoSQL, которая стремится обеспечивать ACID-транзакции. MySQL, несомненно, является базой SQL и в своей истории имеет сомнительные интерпретации на тему, что же на самом деле означает ACID.
Читать дальше →
Total votes 30: ↑27 and ↓3 +24
Views 51K
Comments 10

Геокодер OSM на Java

Java *OpenStreetMap *Geoinformation services *
Привет, дорогие читатели хабра. В этой статье поговорим

  • Про адреса и хранилища данных с нечеткой схемой
  • Про обработку геоданных на java, а именно про Java Topology Suite
  • Про стоимость «простоты» для разработчика
  • Про pure Java nosql документную бд / движок полнотекстового поиска — Elasticsearch.

Читать дальше →
Total votes 23: ↑22 and ↓1 +21
Views 24K
Comments 15

Переходим от MongoDB Full Text к ElasticSearch

Likeastore corporate blog Search engines *NoSQL *
В своем прошлом посте, с анонсом Google Chrome расширения для Likeastore, я упомянул тот факт, что в качестве поискового индекса мы начали использовать ElasticSeach. Именно ElasticSeach дал достаточно хорошую производительность и качество поиска, после которого было принято решение, выпустить расширение к хрому.

В этом посте, я расскажу о том, что использование связки MongoDB + ElasticSeach, есть крайне эффективное NoSQL решение, и о том, как перейти на ElasticSearch, если у вас уже есть MongoDB.
Читать дальше →
Total votes 31: ↑28 and ↓3 +25
Views 27K
Comments 22

Масштабируем Elasticsearch на примере кластера с индексами в несколько терабайт

Big Data *
Sandbox

Низкая скорость поисковых запросов


Работая над поисковым движком по социальной информации (ark.com), мы остановили свой выбор на Elasticsearch, так как по отзывам он был очень легок в настройке и использовании, имел отличные поисковые возможности и, в целом, выглядел как манна небесная. Так оно и было до тех пор, пока наш индекс не вырос до более-менее приличных размером ~ 1 миллиарда документов, размер с учетом реплик уже перевалил за 1,5 ТБ.

Даже банальный Term query мог занять десятки секунд. Документации по ES не так много, как хотелось бы, а гуглинг данного вопроса выдавал результаты 2х-летней давности по совсем не актуальным версиям нашего поискового движка (мы работаем с 0.90.13 — что тоже не достаточно старая вещь, но мы не можем позволить себе опустить весь кластер, обновить его, и запустить заново на текущий момент — только роллинг рестарты).

Низкая скорость индексации



Вторая проблема — мы индексируем больше документов в секунду (порядка 100к), чем Elasticsearch может обрабатывать. Тайм-ауты, огромная нагрузка на Write IO, очереди из процессов в 400 единиц. Все выглядит очень страшно, когда смотришь на это в Marvel.

Как решать эти проблемы — под катом
Читать дальше →
Total votes 24: ↑24 and ↓0 +24
Views 31K
Comments 14