Matvey-Kuk Sep 17 2022 at 10:15

Grafana OnCall — Open Source хаб для алертов и инцидентов

4 min

30K

Open source * DevOps *

+35

Comments 18

UFO landed and left these words here

Matvey-Kuk Sep 17 2022 at 11:15

Чего?

Graceful Degradation, Rate Limiting

так эскалировать и собирать группировку умеет наверное примерно все, от того же прома?

Пром умеет группировать, но эскалировать не умеет. Grafana Alerting до версии 9 не умел группировать. А вообще систем мониторинга на рынке 370+, кто-то что-то умеет, а кто-то что-то не умеет.

И все это в контейнере. то есть с сетью придется отдельно воевать.

В нескольких контейнерах*. Пока именно с сетью проблем ни у кого особенных не было, все достаточно легко менеджерится helm'ом.

UFO landed and left these words here

angapov Sep 17 2022 at 11:22

А можно этот софт поставить как замену алертменеджеру? То есть алерты брать напрямую из Прометеуса.

Matvey-Kuk Sep 17 2022 at 11:53

Можно, но если у вас уже есть прометеус, лучше пред-группировку сделать в алертменеджере.

angapov Sep 17 2022 at 12:36

Хотелось бы всем управлять из одного места.

slava_k Sep 17 2022 at 15:15

Автоэскалация при отсутствии обязательной реакции (для выполнения временнЫх SLO) и определения обязательного типа реакции (нажал на кнопочку "вижу, ща займусь", письмо на электропочту, действие в других внешних системах) возможны?

Ну и совсем опционально - построение дерева/графа вообще всех событий и условий, для общего понимания всей системы реагирования на инциденты. По идее, это можно попробовать сделать как специфичный дашборд/-ы: общая картина и отдельные деревья/графы реакций, уведомлений по каждому актору (человеку/системе). Конечная цель - иметь карту всех описанных событий, реакций на них и исполнителей с требованиями на такую реакцию. Ещё более опционально - генерация метрик по таким реакциям (с привязкой/ссылкой к исходному событию), для того же prometheus. Из подобного уже можно будет пробовать вынимать KPI для команд, и не только.

Было бы здОрово иметь ту же ansible роль для установки, не все готовы сразу закидывать в кубкластер новый продукт для детальной оценки и тестов. Одного инстанса и роли вполне может хватить для этого.

Спасибо за развитие продукта.

numb Sep 19 2022 at 06:10

В ближайшем будущем планирую реализовать роль. Есть проект с алертами, но без кубера(

sergeykons Sep 18 2022 at 19:20

Хотим пощупать с самого момента выхода на гитхабе.
А можно допилить поддержку постгри для продукта? Иссуе №80

Matvey-Kuk Sep 18 2022 at 19:21

Было бы здорово, если бы вы присоединились к разработке) Postgres дотащим

pon007 Sep 18 2022 at 19:20

Поправьте, если не прав, но что то до боли знакомое делал в zabbix пару лет назад. Кончно, без гугл таблиц для расписания, но с аггрегацией, эскалацией и подавлением алертов.

shamgulov Sep 28 2022 at 18:56

без гугл таблиц для расписания

опечатка или нет?

shrapneel Sep 18 2022 at 19:20

Интересно было бы послушать сравнение со стороны пользователей pagerduty (до которого тоже пока масштаб моей команды не дошел)

homocomputeris Sep 20 2022 at 22:40

нет ни одного упоминания Grafana OnCall, Incident Response Tool с открытым исходным кодом от Grafana Labs

Может быть потому, что опенсорсным он стал два месяца назад.

r3code Nov 9 2022 at 13:15

А что есть инцидент в контексте on-call? Когда инцидент открывается?
И есть ли у нас список всех инцидентов, чтобы потом смотреть потом статистику по ним?

erlyvideo Dec 1 2024 at 11:26

Огромное спасибо за вашу работу!

Пытаюсь понять, как сделать так, чтобы разные алерты от prometheus через alertmanager летели в разные алерт группы. Или может быть alertmanager не нужен и достаточно сразу от прометеуса принимать?

Matvey-Kuk Dec 1 2024 at 14:27

Спасибо! Я недавно вышел из проекта, но контрибьютеры его активно пилят и иногда помогают в чатике https://t.me/amixr_ru

TertiumOrganum Mar 13 2025 at 11:36

Иииии.... Закрыто!