Комментарии 4
И после аварии никого не уволили?
Не верю!
Начальник сказал: "ты самое слабое звено!" Ну не ему же увольняться, смешно же.
На авариях навыки работы с ними прокачиваются огого.
А выгоревшие платы, да заменяют на аналогичные.
Именно культура проведения аварий помогает с ними быстро бороться.
В случае с выгоревшими платами команда, которая готовилась к перевозу своих серверов, с такими же процессорными платами, в другой датацентр сказала что у них они как раз сейчас есть, и чтобы снизить время на замену можно их использовать прямо сейчас, а не искать, где-то.
На разборах разбирают ход аварии или учений.
Пример. на прошлой неделе переключали впервые в сервисном окне одну относительно новую большую систему. Переключение заняло в 2 раза меньше времени, чем было заложено. Но стадии подготовки смежных систем затянулись.
Поэтому на разборе смотрели какие инструкции по отключению смежных систем нужно актуализировать, как тренировать навыки отключения и как эти меры повлияют на скорость планового переключения. Можно ли ускорить в 2 раза, чтобы добиться результатов, сравнимых с другими системами, использующих ту же платформу.
Тогда вам надо военно полевые игры устраивать: ночью побудка по тревоге, марш бросок в противогазах
Ещё до реальной аварии
Я дважды участвовал в учениях по пожарной тревоге, один раз как ответственный за технику безопасности. В обоих случаях люди "погибли".
Сегодня ночью в час работы по переключению одной унаследованной системы на систему на типовой платформе.
Типичные учения по переключению в "золотые" 2 часа проводят, когда Калининград спать лёг, а Камчатка не проснулась с 23 до 01. Золотой час - кинематографический термин, про угол наклона солнца.
При этом самые крупные аварии, на моей памяти, происходили днём.
В нерабочие часы же в первую очередь зовут дежурных.
Как планы действий помогают нам работать с аварийными ситуациями в критических системах