Если интересует SIEM решение, присмотритесь к коммерческим Microfocus Arcsight, IBM QRadar или бесплатному Elastic Stack. Решать аналитические задачи можно во всех этих решениях.
Некоторое, что можно загнать в регламент — можно и автоматизировать.
Если причины известной проблемы рандомные, но примерно известно где копать, к системе алертинга/мониторинга привязывается база знаний/CMDB, которая обогащает события специальным полем с описанием «где копать и кому звонить, если раскопать не получилось». В более простом случае, в событие автоматически добавляется информация с телефоном ответственного.
Хороший инструмент, но я ориентировался на инструменты, которые умеют либо строить карту приложения либо заточены именно под распределённые приложения. APM от ElasticSearch скорее дополнительная фича к их основному продукту, нежели основная фича.
А расскажите на базе чего делали визуализацию топологии? Zabbix — мощный инструмент, но требует множества пристроек сбоку: от панели событий до разных визуализаций.
Интереснее было бы прочитать то же самое, но на примере реальных данных и конкретного кейса. Например, загрузили 200Гб данных в Splunk и ELK и собрались решать такую-то задачу, в Splunk она решается так, а в ELK так, столько-то времени было потрачено там и там. Ну и в этом же духе. А факты без подтверждения выглядят бледновато.
У Appdynamics есть кое-что бесплатное типа мониторинга 1 приложения. А Elastic да, крутое решение особенно в свете развития всяких там *beat расширений
Проект ожидают дополнительные доработки, пока ещё рано на Гитхаб. С этим продуктом можно пока закрывать только отдельные задачи заказчиков, а цель — сделать его универсальным решением для мониторинга. Только после этого выложить на Гитхаб.
Статья описывает концепт, в ней есть отсылки на все использованные решения, никаких секретов нет. Мы делали только управлялку. Если интересно именно это решение — напишите в личку, дам вам ссылку на демо.
1. Какое решение использовали в качестве CMDB?
2. Не совсем понял техническое решение
Вы анализируете лог при помощи Zabbix и в случае аварии берёт проблемную строку и передаёте в Zabbix, а дальше Logstash забираете в Elastic?
Если причины известной проблемы рандомные, но примерно известно где копать, к системе алертинга/мониторинга привязывается база знаний/CMDB, которая обогащает события специальным полем с описанием «где копать и кому звонить, если раскопать не получилось». В более простом случае, в событие автоматически добавляется информация с телефоном ответственного.
Да, желательно, чтобы был гибкий подход к группировке. Бэкэнд/фротнэнд привёл для примера.
А можете пояснить значение полей в вашей сравнительной таблице? Интересуют User, Event, Usage, Service.
В нашем решении это, наверное, одна из важных фич. Кстати, если всё ок, то дизлайк на карте превращается в лайк (мелочь, а приятно)