Инцидент-менеджмент с нуля: практический гайд для растущих команд

3 часа ночи. Звонок от незнакомого номера. ”Пользователи не могут залогиниться, п****ц”.
Вы лихорадочно листаете Slack. Непонятно, где проблема и кого будить. Подняли тестеров — они тоже гадают. Бэкенд? Инфра?
Идёте во флудилку в телеге, ищете похожий ник тимлида. Не отвечает. Кто замещает - никто не знает. Начинается массовый обзвон. Через 40 минут находится человек. Смотрит код. “Не моё. Это к Сане — он, кажется, редирект криво поменял в гугл клауд консоли”. Ещё 20 минут — поиск Сани, доступы только у него.
Утром все разбитые. CTO вопрошает. И становится ясно: баг простой. Проблема не в коде. Проблема в бардаке.
Знакомо? Я тоже через это прошел. И после такой ночи решил: хватит. Нужна система.

















