Как стать автором
Обновить

Disaster Recovery Plan: Как правильно заваривать чай, когда горит серверная

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров10K
Всего голосов 36: ↑36 и ↓0+37
Комментарии43

Комментарии 43

Нельзя ж писать "Заварить чай". Инженер в стрессе. Надо начать с "Налить в чайник воды до максимума".

Хорошая мысль. Но надо будет исключить ситуации вида "Поставил на газовую плиту пластиковый чайник, полный воды"

Не зажег конфорку, отравился газом...

"Четверо инженеров погибло при попытке устранения аварии в кластере"

Ещё непонятно, что делать, если чайник уже полный.

Нужен одноразовый саморазогревающийся чайник.

С завода заполненный водой. Заваривающийся автоматически на всем предприятии по команде с аварийного пульта, в том числе при отсутствии электроснабжения. Не выпускающий пар, чтобы не вызвать срабатывание пожарной сигнализации.

Тогда нужна периодическая поверка как для автоклавов. И надо толстую сталь брать для корпуса

И надо толстую сталь брать для корпуса

С другой стороны, должен не быть травмоопасным. Непростое ТЗ.

Классика же. Выливаем воду из чайника, далее действуем в соответствии с п. 1

Выливаем воду и сводим задачу к известной.

Но необходим источник бесперебойного водоснабжения.

Для того и обязательное условие "до максимума". Все умеют заливать 0мл воды.

Тогда нужно вводить задачу вида налить -240 мл воды, если в чайнике воды больше максимальной отметки.

А еще проверить что вода не тяжелая. И что вода без ртути. И что чайник -- для кипяченая а не заваривания. И что есть средства подогрева. На крайняк предложить сделать Cold Brew на фоне. Можно достать Cyrix CPU, они хорошо кипятили воду...

Просто надо держать бутылку чая рядом с бутылкой гиннеса. Но есть риск перепутать, инженер же в стрессе.

Держать 2 холодильника разного цвета: в одном - чай, в другом - гиннес.

Бобры явно знали, что они делают

А в топе источника проблем для крупной телекоммуникационной компании Level 3 Communications вообще были белки.

В общем, можно констатировать, что белочка придет ко всем ) Независимо от количества спиртного )

Вот оно, поколение, не настрадавшееся от тараканов в телевизорах!

У моего коллеги ноутбук в Таиланде отказал из-за того, что муравьи внезапно решили его колонизировать.

Надеюсь что "его" в данном случае было отсылкой к ноутбуку, а не коллеге (как минимум Тай уже колонизирован, так что отпадает)

…и муравьями в том числе, причём пораньше, чем приматами :)

А кто-то что-то говорил про видовую принадлежность коллеги? Что за приматофилия?

Эта незадача была предусмотрена в DRP?

Да, переход на резервный ноутбук. После инцидента добавили требование км герметичному хранению в полиэтиленовых зиплоках.

С рисом и силикагелем, надеюсь?

Рис прям идеально звучит в тропиках с насекомыми) Но, в целом, это не самая критичная опция, если его туда засунули не в состоянии "выловил из реки"

Что-то мне уже интересно, насколько (не)реально готовый, не кастомный ноут доработать до «номаконового кирпича».

В принципе, если дно заменить на кастомный алюминий миллиметра в три плюс оребрение по всему дну сантиметра в полтора, снять вентиляторы с термотрубок и вместо этого прижать термотрубки к алюминию, вставить во все разъёмы по заглушке и всё свободное пространство номаконом залить, и крышку с экраном отдельно залить тоже…

Если хард механический, то придётся ему оставлять гнездо незалитое. И крышку с резинкой, которая насмерть задраивается. А вот клаву разве что в плёнку обернуть, как пультик от телевизора :)

Похоже на ТЗ для военных ноутбуков

Тогда уж Toughbook сразу какой-нить взять проще.

проще надо быть - разъемы вынести на платы с защитой от КЗ с платами рассчитанными на погружение в воду итп агрессивные среды, вентиляторы и клава есть IP68, а все остальное(крмое радиаторов) залить термопроводящим Компаундом до монолитного состояния....

как писали в свое время - ...Залито цапон лаком и эпоксидкой до полного стояния "колом", при перегрузках до 150Же...

Вообще вопрос серьёзный. Почему второй ноутбук а не эскалация по цепочке другому человеку?

Эскалация тоже есть. Но не все люди идентично заменимы и иногда есть необходимость обеспечить полное присутствие человека во время плановых или аварийных работ. Тогда два канала связи и два ПК - обычно ноутбук + ноутбук или стационарный ПК + ноутбук.

Если не все люди заменимы, то ситуация доходит до басфактора 1, и два ноутбука не помогут

Кто-то лучше погружен в детали проекта и справится быстрее в сложной ситуации. Это бывает. Другой сотрудник тоже сможет, но менее эффективно

Мдас, для таких климатических условий нужно делать в стиле «всё залито номаконом, вся задняя стенка — радиатор». Чтобы на 10 метров с ним нырнуть можно было и ему ничего за это не было :)

И то упорная тварь муравей может и номакон погрызть…

Как оказалось, в тропических странах - это прям проблема. Вплоть внутренних рекомендаций хранения резервного ноутбука в большом пакете на зиплоке, если сотрудник гарантированно должен быть доступен

Добавьте что в зиплок лучше положить несколько пакетиков силикагеля.

А вообще кто в азии уже давно, есть правило - все что не будет использоваться больше двух дней - хранится в гермобоксе. Делается он за 10 минут, но может спасти очень много денег и нервов.

Нам белка забила орехами облучатель на тарелке

Тем не менее, намного удобнее устранять аварию посреди ночи, если рядом “сидит” эксперт, который “держит перед глазами” 120 листов документации по уникальным костылям в вашей системе. 

вероятно скоро придут времена когда DRP этот самый эксперт и будет делать )

Хорошо когда в компании есть отдельный человек для набора в чайник воды, отдельный специалист который включит чайник и ещё два которые нальют воду когда та закипит и положат чайный пакетик. Если есть отдельный спец который добавит сахара так вообще пестня.

А если серьёзно - это красиво смотрится на бумаге с диаграммой ганта, на практике железячник может описать только свою зону ответственности, разработчик свою, возможно девопс сможет описать по этим описаниям общую картину, но кто девопсу даст раскрой по фин потерям в разрезе $\час вообще не понятно. В итоге под написание такого плана нужен отдельно отдел из 2-3 специалистов, которые ещё и окружающих задолбают по полной, и процесс этот практически бесконечный, т.к. в течении года всё устареет, а через 2 при попытке по этому сценарию что то восстановить окажется что вообще всё не соответствует реальности.

Для ключевых сервисов описать общий сценарий действий реально, а остальное сказка. В принципе на то и держат специалистов что бы в случае критической ситуации они всё восстановили.

На первую работу выходить месяца через 2. Читаю это с выражением лица мало понятно, но очень интересно.

Могу только пожелать удачи на новом месте. Если коротко, то очень хорошо, когда есть понятная инструкция, что делать, если все рухнуло, горит, а экскаватор заканчивает перекапывать ваш оптоволоконный кабель.

Причем, DRP может быть не только для IT, но и вообще для любых компаний и процессов. Например, что делать, если вы продаете туристические туры и тут внезапно всю страну закрывают из-за эпидемии. Лучше заранее понимать, кто и что будет делать в такой ситуации.

в маленькой сети, это срабатывает. В большой, которая лет 20 "росла", планы восстановления срабатывают далеко не всегда, ибо админы "сейчас" не всегда знают, что сделали админы до них. А уж про скрипты, которые вообще редко документируют я вообще молчу.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий