Articles / Bookmarks / Profile of nastya

banet1k Mar 26 at 12:13

Как добавить системности в мониторинг продакшна: параметры и тулинг для инцидент-менеджмента

Medium

8 min

2.5K

IT Infrastructure*Service Desk*DevOps*Сравни corporate blog

Tutorial

На проде что‑то сломалось — такова суровая реальность, случается с лучшими из нас, увы. Что часто происходит в подобных случаях: ловим алерты, бежим смотреть графики и логи, вызваниваем из отпуска разработчика, который занимался этой функциональностью, выкатываем фикс, проводим пост‑мортем. Это реакция на уровне здравого смысла, классика.

Но когда речь заходит о недозаработанных из‑за инцидента деньгах, расстроенных пользователях — любое улучшение, даже небольшое, на доли процента — может принести ощутимый результат.

Давайте поговорим, как подойти к вопросу мониторинга методологически — задействовать инструментарий инцидент‑менеджмента. Обсудим, как оценивать критичность сервисов и какие системы могут быть полезны для отслеживания проблем.

Статья ориентирована в первую очередь на тех, кто прямо сейчас занимается мониторингом на уровне общей инженерной грамотности, но пока не использует в явном виде инцидент‑менеджмент как подход.

А что дальше?

+21

akhsakhmedov Jan 25 at 17:21

Excel vs Grafana: Автоматизация дежурств

Easy

5 min

11K

IT Infrastructure*Development Management*Сравни corporate blog

Привет, Хабр! Меня зовут Ахмед, я Deputy CTO в Сравни.

Сегодня расскажу вам об опыте управления дежурствами в ИТ-команде.

Представьте: вы нашли баг на проде; хотите рассказать о находке коллегам, которые отвечают за эту функциональность. Идёте в рабочий мессенджер, пишете в канал или групповой чат соответствующей команды.

+19