Как стать автором
Обновить
69.54
Слёрм
Учебный центр для тех, кто работает в IT

О мониторинге замолвите слово

Время на прочтение2 мин
Количество просмотров1K

Уже завтра, 17 января, стартует «Школа мониторинга». Чем-то она будет похожа на встречу одноклассников после насыщенных каникул: рассказы о жизненных ситуациях тесно сплетутся с советами и интересными наблюдениями. Так во второй день Иван Кондратьев, технический директор Core24/7, расскажет, как команде удалось преодолеть угнетающую силу алертов и выйти на бодрый рабочий график с помощью Grafana OnCall. 

Чем занимается Core24/7 и зачем вам мониторинг? 

Мы являемся сертифицированным провайдером Kubernetes, Gitlab, Redhat. Предоставляем DevOps/SRE-услуги на аутсорсе и одновременно обслуживаем более 1000 различных систем. Мы наблюдаем за приложениями в режиме реального времени, благодаря чему системы наших клиентов всегда доступны и работают без перебоев. 

Проблема с алертами: что было, почему это было проблемой и как удалось её решить

Проблем было достаточно много: бывали ситуации, когда дежурный просыпался и обнаруживал 1000 пропущенных алертов в чатике. Уведомления становятся шумом, который мешает, а не помогает найти проблему в инфраструктуре. Мы уставали, выгорали, иногда даже возникало стойкое отвращение к работе.

Хотелось сократить количество алертов и выстроить удобный процесс дежурных ротаций. Команда проанализировала 3 инструмента, и, увы — они нам не подошли. Все изменилось, когда в прошлом году Grafana OnСall релизнула свой код в opensource. Мы изучили инструмент и осознали — это именно то, что команда искала.

Нам удалось сократили количество алертов в 2–3 раза, создать удобный график дежурств, стандартизировать формат алертов, выстроить различные цепочки эскалаций от уведомления дежурному/тимлиду до звонка СТО. 

А зачем лично тебе участвовать в «Школе»?

Хочу поддержать «наболевшие» темы: как выстроить правильный мониторинг и реакцию дежурных на инциденты/алерты. Чем больше людей узнают, что важно настраивать мониторинг, тем лучше для всех 🙂

А ещё буду рад послушать, как решают схожие проблем коллеги из других компаний, да и своим опытом поделюсь.

Посмотреть всю программу и зарегистрироваться на «Школу мониторинга»: https://slurm.club/3QJVyED

Теги:
Хабы:
Всего голосов 13: ↑10 и ↓3+8
Комментарии0

Другие новости

Информация

Сайт
slurm.io
Дата регистрации
Дата основания
Численность
51–100 человек
Местоположение
Россия
Представитель
Антон Скобин