В авиакомпании Delta защитная опция Bitlocker активирована на всех устройствах, вплоть до киосков, поэтому инженерам команды техподдержки приходится вручную работать с каждым ПК.
Системные администраторы, сетевые специалисты и инженеры тысяч компаний в оперативном режиме по всему миру третьи сутки вручную продолжают исправлять BSOD в парках ПК на Windows из-за глобального сбоя, вызванного ошибкой в обновлении ПО CrowdStrike. Логическая ошибка системы защиты от кибератак Falcon Sensor производства американской компании в сфере информационной безопасности CrowdStrike затронула IT-инфраструктуру многих банков, госструктур, аэропортов, предприятий из различных отраслей по всему миру.
Системные администраторы и инженеры в сменах по 10-16 часов на полу, на коленях, на лестницах, в машзалах, больницах, на заводах и в полицейских участках возвращают к жизни ПК, умные панели, киоски с билетами, серверы и ноутбуки вручную, удалённое подключение не работает. Нужно загрузить систему в Safe mode и выполнить некоторые команды или поработать с реестром. Если диск ПК защищён шифрованием BitLocker, то нужно найти и ввести ключ восстановления BitLocker в каждой системе, а затем продолжить исправление обновления CrowdStrike, пока не заработают все компьютеры в организации.
IT-команда в аэропорту Денвера вручную обновляет элементы электронных табло от ошибки в ПО CloudStrike по всему аэропорту. «Только что разговаривал с этими ребятами, они сказали, что здесь с 4 утра и обновляют вручную. Удивительно, что CloudStrike может выпустить обновление, которое всё ломает, но не может выпустить обновление, которое всё исправит», — уточнил разработчик Морган Линтон.
Два инженера с ноутбуками пытаются перезапустить ПК под подвесным потолком. Очень неудобно набирать команды на ноутбуке, стоя на стремянке.
А гейтов в аэропорту очень много.
Не до всех ПК можно добраться даже с обычной стремянкой.
Третья ночь и 300 инженеров в критическом режиме спешат сделать все возможное... Боже, храни специалистов службы поддержки, которые понятия не имели, что их ждёт.
Пришло время войти в систему и проверить, поразило ли нас это… о боже, я надеюсь, что нет… 350 тыс. хостов в BSOD.
У меня 210 тыс. BSOD и оно продолжает расти... это плохо....
Всего в парке около 170 тыс. устройств, но не все сообщили о сбое (Nexthink FTW). Многие из ПК это обошло, но похоже, что около 16 тыс. оказались отключены....не включая пару тысяч серверов, которые необходимо вручную загрузить в безопасный режим для исправления.
У нас было затронуто около 1000 ПК и 25 серверов (как локальных, так и в Azure). Ноутбуки по большей части были отключены от сети, поэтому это на них этот сбой не повлиял. Всех подняли и сказали быть наготове, независимо от их роли в ИТ-службе. Мы создали обучающее видео для пользователей по загрузке в «Безопасном режиме с поддержкой сети», чтобы инженеры могли удалённо войти, удалить файл и перезагрузиться (позже после тестирования написали для этого скрипт). Серверы подняли вручную. Мы начали в 6:30 утра, расставляя приоритеты — сначала POS (торговые точки) и критически важные серверы, затем перешли к следующему важному моменту, пока к 18:30 все не наладилось. Некоторые устройства зависали в цикле загрузки, некоторым устройствам потребовалось несколько попыток войти в безопасный режим, но 12 часов спустя мы оказались в гораздо лучшем положении.
У моей компании около 15 000 устройств в более чем 20 странах, все в разных доменах, 365 арендаторов и беспорядочная дерьмовая инфраструктура, разбросанная по подозрительным дата-центрам. Я наблюдал за очередью с тикетами, особенно когда Америка проснулась, поскольку я живу в Англии. Один новый тикет каждые пару секунд о ситуации с ВSOD. Большинство устройств, подключённых к Intune, используют BitLocker, поэтому удалённое исправление просто не применимо к моей компании. По сути, мы облажались на следующие несколько недель (Basically we are fecked for the next few weeks).
20 июля Microsoft выпустила вспомогательный инструмент для системных администраторов для исправления BSOD в Windows 10/11 из-за некорректного обновления ПО CrowdStrike с помощью загрузочного USB-накопителя и скрипта MsftRecoveryToolForCS.ps1. Ранее CrowdStrike выпустила патч для исправления логической ошибки, которая привела к миллионам ошибок с BSOD, но большинство ПК не могут автоматически получить это исправление из-за своего нерабочего состояния.
Microsoft сообщила, что количество столкнувшихся с глобальным сбоем в работе ПК и серверов на Windows из-за некорректного обновления ИБ-приложения CrowdStrike, где возник синий экран смерти (BSOD), составляет не менее 8,5 млн штук.