Как стать автором
Поиск
Написать публикацию
Обновить
17
0
Anton Kasimov @AntoniusFirst

IT-monitoring expert

Отправить сообщение

Расскажите, пожалуйста, подробнее какой стек инструментов используете для сборки такой системы мониторинга. Из знакомых интерфейсов увидел KIbana и Grafana. А что ещё?

Ansible это хорошо, но иногда можно обойтись подобным скриптом. А канал я веду сам и может информация из него кому-то будет полезна.

Некоммерческие проекты не могут попасть в квадрант по определению

Есть прогноз, что будет с Instana после того как их купил IBM?

А можно задать вам вопрос как специалисту по OSM? Что могли бы посоветовать для использования OSM в оффлайн-режиме? Есть ли вообще такая возможность?

А Elastic вы за SIEM не считаете?

Чота ни Grafana ни Zabbix в примерах не было. Про них тоже было бы интересно узнать.

Не совсем понял, а куда у вас отправляются данные после аналитики в Pandas? Где вы их потом разглядываете?

Интересно было бы узнать чем именно вам не подошёл Заббикс. У них сейчас есть Заббикс Агент 2, написанный на Go. К нему можно прикручивать собственные плагины и в целом есть где развернуться.

Так а вы ваше решение поставляете в виде установочного пакета? У меня были задачки по настройке трейсинга php-fpm. Вам в любом случае придётся подцеплять SDK инструмента мониторинга — не чужого так своего (тем более оно у вас уже и так есть). Если не нравится облачность rollbar есть же и решения on-prem.
Как что? Prometheus, конечно!

Основной вопрос к WLSDM один: можно ли автоматизировать постановку и снятие с мониторинга, а также управление конфигурацией при помощи кода.
А как у вас реализован второй способ? Где хранится вся логика? Предположительно, она должна расти как снежный ком и всем этим нужно ещё пытаться управлять.
Спасибо за познавательную статью. Интересно было читать как вы прошли путь работы с событиями. Система выглядит интересной. Есть пара вопросов, первый по документации, второй по автоматизации.

1. Можете подробнее рассказать как у вас работает документации по событиям? Судя по скриншоту — это некий гитлаб. Правильно понял, что к каждому событию привязывается ссылка на гитлаб на основе лейбла или наборов лейблов события? Или дежурные сами выполняют поиск по гитлабу и ищут подходящий к событию документ?

2. А вы не делаете первичную диагностику по событиям, на которые должны реагировать дежурные? Ну, например, запускаете синтетическую проверку веб-интерфейса, смотрите хелс-чеки соседних сервисов, проверяете время отклика чего-нибудь, чтобы затем привязать эту информацию к событию, чтобы дежурный видел больше контекста.
Да, есть такая. Я переводил ещё до выхода в продажу этой книги. На Хабре опубликовал только сейчас. Ну и книга стоит денег, а здесь можно бесплатно.
Добавьте пжл и мой канал.

Мониторим_ИТ — канал об инструментах мониторинга и подходах к нему. Для тех, кого нет в телеграме, есть сателлит на Медиуме.
Может кому-то будет полезно. На Медиуме я публиковал перевод двух глав книги Google SRE. В шестой главе как раз про эти сигналы.

Глава 4 Цели уровня обслуживания

Глава 6 Мониторинг распределённых систем
Радикальных изменений в 7, конечно, не было, но весь этот перечень изменений всё равно заставляет переделывать некоторые вещи при обновлении.
В версии 7.0 уже и типы выведены из эксплуатации. Остались индексы и документы. По этой книге будет невозможно работать в 7 версии эластика. Книга «Machine Learning with the Elastic Stack» по мне так была бы более интересна.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность