Комментарии / Профиль AntoniusFirst / Хабр

IT-monitoring expert

ПрофильСтатьи16ПостыНовостиКомментарии57

Для чего нужны «золотые сигналы» мониторинга и SRE?

AntoniusFirst 25 сен 2019 в 12:45

Может кому-то будет полезно. На Медиуме я публиковал перевод двух глав книги Google SRE. В шестой главе как раз про эти сигналы.

Глава 4 Цели уровня обслуживания

Глава 6 Мониторинг распределённых систем

Книга «Elasticsearch, Kibana, Logstash и поисковые системы нового поколения»

AntoniusFirst 15 мая 2019 в 10:21

Радикальных изменений в 7, конечно, не было, но весь этот перечень изменений всё равно заставляет переделывать некоторые вещи при обновлении.

Книга «Elasticsearch, Kibana, Logstash и поисковые системы нового поколения»

AntoniusFirst 15 мая 2019 в 10:06

В версии 7.0 уже и типы выведены из эксплуатации. Остались индексы и документы. По этой книге будет невозможно работать в 7 версии эластика. Книга «Machine Learning with the Elastic Stack» по мне так была бы более интересна.

Метод CASE: гуманный мониторинг

AntoniusFirst 17 апр 2019 в 12:58

Если систем мониторинга несколько (а обычно это так и бывает), события лучше обрабатывать (коррелировать, схлопывать и т.д.) во внешнем event consolidator (или зонтичной системе). Дополнительным плюсом будет единая точка интеграции с системой инцидент-менеджмента.

Ещё одна статья о лечении при следующих сиптомах событийной усталости:

вы не успеваете реагировать на все поступающие события;
вы не знаете на кого назначить полученные события;
вы не понимаете какая должна быть реакция на события;
вы считаете, что критичность события не соответствует действительности;
избыточные события утомляют дежурную группу (история про волки-волки, но потом они на самом деле пришли).

Новый квадрант Gartner по решениям для мониторинга приложений (APM)

AntoniusFirst 12 апр 2019 в 11:47

Мне известны кейсы перехода с платного ПО на другое платное, но подешевле. А вот чтобы с платного на бесплатное… не встречался с таким, но в природе, наверняка, случаи были. New Relic — классное решение, жаль, что в России не очень хорошо относятся к облачным системам, которые хостятся за пределами страны.

Splunk Universal Forwarder в докере как сборщик системных логов

AntoniusFirst 12 апр 2019 в 11:42

Из российского ПО нет аналогичных решений

Splunk Universal Forwarder в докере как сборщик системных логов

AntoniusFirst 11 апр 2019 в 10:13

Если интересует SIEM решение, присмотритесь к коммерческим Microfocus Arcsight, IBM QRadar или бесплатному Elastic Stack. Решать аналитические задачи можно во всех этих решениях.

Как мы используем систему мониторинга Zabbix для ритейла

AntoniusFirst 7 мар 2019 в 14:28

Спасибо за пост. Парочка вопросов:
1. Какое решение использовали в качестве CMDB?
2. Не совсем понял техническое решение

Logstash у нас выгребает логи через API Zabbix

Вы анализируете лог при помощи Zabbix и в случае аварии берёт проблемную строку и передаёте в Zabbix, а дальше Logstash забираете в Elastic?

Семь «НЕ» мониторинга ИТ-инфраструктуры

AntoniusFirst 13 сен 2018 в 16:45

Некоторое, что можно загнать в регламент — можно и автоматизировать.

Если причины известной проблемы рандомные, но примерно известно где копать, к системе алертинга/мониторинга привязывается база знаний/CMDB, которая обогащает события специальным полем с описанием «где копать и кому звонить, если раскопать не получилось». В более простом случае, в событие автоматически добавляется информация с телефоном ответственного.

Присматриваемся к инструментам для мониторинга распределенных приложений

AntoniusFirst 12 сен 2018 в 15:50

Сейчас работает. Временный глюк какой-то

Присматриваемся к инструментам для мониторинга распределенных приложений

AntoniusFirst 12 сен 2018 в 15:49

Хороший инструмент, но я ориентировался на инструменты, которые умеют либо строить карту приложения либо заточены именно под распределённые приложения. APM от ElasticSearch скорее дополнительная фича к их основному продукту, нежели основная фича.

Присматриваемся к инструментам для мониторинга распределенных приложений

AntoniusFirst 11 сен 2018 в 14:10

Ориентировался на инструменты, которые в основном предназначены для трейсинга вызовов между сервисами приложения.

Да, желательно, чтобы был гибкий подход к группировке. Бэкэнд/фротнэнд привёл для примера.

9 платных, условно-бесплатных и бесплатных программ для трекинга кода приложений

AntoniusFirst 31 июл 2018 в 12:22

Поправил — спасибо!

9 платных, условно-бесплатных и бесплатных программ для трекинга кода приложений

AntoniusFirst 31 июл 2018 в 12:19

Про них тоже стоит написать

Зачем мониторить системы хранения данных?

AntoniusFirst 5 июн 2018 в 09:10

А расскажите на базе чего делали визуализацию топологии? Zabbix — мощный инструмент, но требует множества пристроек сбоку: от панели событий до разных визуализаций.

SPLUNK VS ELK?

AntoniusFirst 14 мая 2018 в 11:51

Если готовы платить — посмотрите Appdynamics, Instana (статьи на Хабре: раз, два) и Overops (статья на Хабре: раз). У всех троих есть on-premise.

SPLUNK VS ELK?

AntoniusFirst 14 мая 2018 в 11:23

Интересно, что же вы используете вместо New Relic?

SPLUNK VS ELK?

AntoniusFirst 14 мая 2018 в 09:45

Интереснее было бы прочитать то же самое, но на примере реальных данных и конкретного кейса. Например, загрузили 200Гб данных в Splunk и ELK и собрались решать такую-то задачу, в Splunk она решается так, а в ELK так, столько-то времени было потрачено там и там. Ну и в этом же духе. А факты без подтверждения выглядят бледновато.

Инвентаризируй это, инвентаризируй то: SAM

AntoniusFirst 11 мая 2018 в 11:21

Писал недавно про KACE на Хабре, почитайте — интересное решение.

А можете пояснить значение полей в вашей сравнительной таблице? Интересуют User, Event, Usage, Service.

Организация системы мониторинга

AntoniusFirst 12 апр 2018 в 12:17

У Appdynamics есть кое-что бесплатное типа мониторинга 1 приложения. А Elastic да, крутое решение особенно в свете развития всяких там *beat расширений