Согласитесь, что встретить Новый год рядом с семьёй и друзьями - намного приятнее, чем сидеть за ноутбуком в 02:40 и с квадратными глазами разбираться, почему “что-то там легло”, а доступ к нужным секретам остался только у одного человека… который как раз в этот момент режет оливье и не слышит телефон.
Ниже я делюсь своим чеклистом из 8 пунктов. Он помогает спокойно уйти в праздники и не проводить их в обнимку с ноутом. А после прочтения, в комментах, обязательно поделитесь что бы вы еще добавили.
1. Деньги на счетах (и вообще всё, что связано с оплатами)
Первое, что стоит сделать перед длинными выходными - проверить деньги и даты списаний в облаках, датацентрах, хостингах, у регистраторов и любых подрядчиков.
Почему это важно: многие услуги устроены так, что при просадке баланса или неуспешном списании они сначала ограничивают функциональность, а потом начинают отключать ресурсы. Иногда “по доброте” дают грейс-период, иногда - вообще нет. Лично у меня было пару ситуаций, когда я это проморгал. Было больно и обидно.
Отдельный кайф - пополнить баланс в праздники юрлицу. В обычный день это “ладно, решаемо”. В праздничный: это “а кто подпишет платёж?“, “а кто отправит?“, “а банк работает?“, “а бухгалтерия на связи?“.
Что проверить:
даты списаний/продлений у всех ключевых поставщиков
лимиты, кредитные линии, авто-платежи, привязанные карты/счета
кто в компании реально может провести оплату, если что-то пойдёт не так
2. DNS
Второй пункт - домены. Звучит банально, но это один из самых глупых способов потерять сервис на ровном месте.
Лучше заранее убедиться, что продление корпоративного домена не падает на праздники. Да, никто обычно не отбирает домен мгновенно. Но бывают нюансы:
регистратор мог уже присылать “письмо счастья” про подтверждение данных/документов;
авто-продление могло отключиться после смены карты/реквизитов
3. Cертификаты
Если у вас где-то остались “ручные” сертификаты, самопальные скрипты продления или неочевидные цепочки - лучше проверить заранее, что всё обновляется нормально. Потому что падение из-за истекшего сертификата вроде бы мелочь, но на практике выглядит как большая жирная “попа”.
Что сделать:
пробежаться по доменам и датам продления
проверить автопродление и способ оплаты
пройтись по критичным endpoints и посмотреть сроки сертификатов
убедиться, что механизм обновления реально работает
4. Алерты, мониторинг, on-call
Прежде чем начать активно праздновать - протестируй, что мониторинг и алертинг реально алертят.
Проблема в том, что мониторинг часто живёт своей жизнью:
где-то токен протух
��де-то интеграция со Slack/Telegram умерла
где-то сайленты настроены так, что “ничего не приходит”
Сделай тест прямо перед праздниками. Например, аккуратно триггернуть алерт на небоевом компоненте или временно поднять порог так, чтобы проверить цепочку доставки.
Дополнительно проверь, что дежурные (или ты сам если один в команде) реально могут своими руками дотянуться:
до нужных кластеров/серверов/панелей
до секретов
до инструкций и контактов провайдеров;
до VPN/Jump-host’ов/2FA.
5. Бекапы
Запомни, бекап без проверки как он восстанавливается просто файл. Очень дано на хабре была статья, где какой то сотрудник отдела эксплуатации бекапил базу 10 лет. А когда всё рухнуло и пришло время восстановиться - оказалось что все бекапы были битые. В общем - не будь как этот сотрудник.
Перед праздниками стоит:
проверить, что бекапы вообще есть и свежие
убедиться, что из самых критичных систем реально можно развернуться
проверить доступы и ключи к хранилищам;
И ещё: когда ты будешь запивать аспирин рассолом после бурной вечеринки, ты не вспомнишь:
где лежат эти бекапы
какой из них правильный
и почему восстановление требует “вот тот ключик, который только у одного человека”.
Если есть возможность - идеально настроить хотя бы полуавтоматическое восстановление: пусть даже не “one-click”, но с понятным сценарием и внятной инструкцией.
6. Ресурсы
Праздники часто совпадают с распродажами, рекламными кампаниями, подарками, промокодами - и трафик может прилететь внезапно.
Сделай быстрый sanity-check:
CPU/Memory по основным узлам и сервисам
лимиты контейнеров, autoscaling, лимиты облака
диски на критичных нодах
сеть/балансировщики/лимиты по соединениям
Метод “penis to nose” тут вполне подходит: не нужно строить диссертацию, но в целом понять, хватит ли запаса, или лучше заранее “докинуть” ресурсы, чтобы не ловить деградацию.
Особенно если ты знаешь, что бизнес будет толкать трафик в праздники.
7. Базы данных
Базы - это отдельный мир боли, потому что они часто не падают “в моменте”, а медленно умирают, пока ты не заметишь.
Перед праздниками:
посмотри на рост диска и прогноз: хватит ли места на неделю/две;
проверь, что нет фон��вых ошибок (репликация, лаг, дедлоки, долгие транзакции);
если мониторинга нет - хотя бы ручной чек по репликам и статусам.
Опять же, метод “penis to nose” работает: лучше заранее докинуть место или оптимизировать, чем потом в панике расширять диск и молиться, чтобы всё прошло гладко.
8. Процессы и люди
Самый недооценённый пункт - не железо и не софт, а люди и процессы.
Проверь:
чётко ли разделены зоны ответственности (кто за что отвечает)
есть ли понятный порядок эскалации
нет ли "бас-фактора"
актуальны ли контакты подрядчиков/провайдеров/доступы
Фишечкой на торте будет наличие Runbook-ов и Disaster Recovery Plan. Даже короткий, но актуальный runbook - это в праздники буквально разница между “решили за 15 минут” и “всю ночь ковырялись”. Конечно прямо сейчас не надо бежать и описывать все возможные runbook-и - это надо было делать раньше. Но если ты сделаешь уже сейчас несколько - будет супер.
Вывод
Перед праздниками важно не стать героем, который “всё держит на себе”, а стать человеком, который предотвратил 90% потенциальных проблем простыми проверками.
И пусть в праздники падают только снежинки, а не сервисы. С наступающими и максимально спокойного on-call’а. 🎄
А что бы вы добавили еще исходя из своего опыта?
