
Уже завтра, 17 января, стартует «Школа мониторинга». Чем-то она будет похожа на встречу одноклассников после насыщенных каникул: рассказы о жизненных ситуациях тесно сплетутся с советами и интересными наблюдениями. Так во второй день Иван Кондратьев, технический директор Core24/7, расскажет, как команде удалось преодолеть угнетающую силу алертов и выйти на бодрый рабочий график с помощью Grafana OnCall.
Чем занимается Core24/7 и зачем вам мониторинг?
Мы являемся сертифицированным провайдером Kubernetes, Gitlab, Redhat. Предоставляем DevOps/SRE-услуги на аутсорсе и одновременно обслуживаем более 1000 различных систем. Мы наблюдаем за приложениями в режиме реального времени, благодаря чему системы наших клиентов всегда доступны и работают без перебоев.
Проблема с алертами: что было, почему это было проблемой и как удалось её решить
Проблем было достаточно много: бывали ситуации, когда дежурный просыпался и обнаруживал 1000 пропущенных алертов в чатике. Уведомления становятся шумом, который мешает, а не помогает найти проблему в инфраструктуре. Мы уставали, выгорали, иногда даже возникало стойкое отвращение к работе.
Хотелось сократить количество алертов и выстроить удобный процесс дежурных ротаций. Команда проанализировала 3 инструмента, и, увы — они нам не подошли. Все изменилось, когда в прошлом году Grafana OnСall релизнула свой код в opensource. Мы изучили инструмент и осознали — это именно то, что команда искала.
Нам удалось сократили количество алертов в 2–3 раза, создать удобный график дежурств, стандартизировать формат алертов, выстроить различные цепочки эскалаций от уведомления дежурному/тимлиду до звонка СТО.
А зачем лично тебе участвовать в «Школе»?
Хочу поддержать «наболевшие» темы: как выстроить правильный мониторинг и реакцию дежурных на инциденты/алерты. Чем больше людей узнают, что важно настраивать мониторинг, тем лучше для всех ?
А ещё буду рад послушать, как решают схожие проблем коллеги из других компаний, да и своим опытом поделюсь.
Посмотреть всю программу и зарегистрироваться на «Школу мониторинга»: https://slurm.club/3QJVyED