Comments 17
Чего?
Graceful Degradation, Rate Limiting
так эскалировать и собирать группировку умеет наверное примерно все, от того же прома?
Пром умеет группировать, но эскалировать не умеет. Grafana Alerting до версии 9 не умел группировать. А вообще систем мониторинга на рынке 370+, кто-то что-то умеет, а кто-то что-то не умеет.
И все это в контейнере. то есть с сетью придется отдельно воевать.
В нескольких контейнерах*. Пока именно с сетью проблем ни у кого особенных не было, все достаточно легко менеджерится helm'ом.
А можно этот софт поставить как замену алертменеджеру? То есть алерты брать напрямую из Прометеуса.
Автоэскалация при отсутствии обязательной реакции (для выполнения временнЫх SLO) и определения обязательного типа реакции (нажал на кнопочку "вижу, ща займусь", письмо на электропочту, действие в других внешних системах) возможны?
Ну и совсем опционально - построение дерева/графа вообще всех событий и условий, для общего понимания всей системы реагирования на инциденты. По идее, это можно попробовать сделать как специфичный дашборд/-ы: общая картина и отдельные деревья/графы реакций, уведомлений по каждому актору (человеку/системе). Конечная цель - иметь карту всех описанных событий, реакций на них и исполнителей с требованиями на такую реакцию. Ещё более опционально - генерация метрик по таким реакциям (с привязкой/ссылкой к исходному событию), для того же prometheus. Из подобного уже можно будет пробовать вынимать KPI для команд, и не только.
Было бы здОрово иметь ту же ansible роль для установки, не все готовы сразу закидывать в кубкластер новый продукт для детальной оценки и тестов. Одного инстанса и роли вполне может хватить для этого.
Спасибо за развитие продукта.
Хотим пощупать с самого момента выхода на гитхабе.
А можно допилить поддержку постгри для продукта? Иссуе №80
Поправьте, если не прав, но что то до боли знакомое делал в zabbix пару лет назад. Кончно, без гугл таблиц для расписания, но с аггрегацией, эскалацией и подавлением алертов.
Интересно было бы послушать сравнение со стороны пользователей pagerduty (до которого тоже пока масштаб моей команды не дошел)
нет ни одного упоминания Grafana OnCall, Incident Response Tool с открытым исходным кодом от Grafana Labs
Может быть потому, что опенсорсным он стал два месяца назад.
А что есть инцидент в контексте on-call? Когда инцидент открывается?
И есть ли у нас список всех инцидентов, чтобы потом смотреть потом статистику по ним?
Огромное спасибо за вашу работу!
Пытаюсь понять, как сделать так, чтобы разные алерты от prometheus через alertmanager летели в разные алерт группы. Или может быть alertmanager не нужен и достаточно сразу от прометеуса принимать?
Спасибо! Я недавно вышел из проекта, но контрибьютеры его активно пилят и иногда помогают в чатике https://t.me/amixr_ru
Grafana OnCall — Open Source хаб для алертов и инцидентов