Комментарии 37
А вот и первые ягодки пошли. Разработчик антивируса само собой предложил соломки в лицензионном соглашении , но не факт что поможет.
А Microsoft-то тут при чём? Или я что-то пропустил?
У них Ажур лёг. Если авиакомпания использовала облачные решения от Майкрософт, то это тоже долбануло.
Не сам азур лег, а ВМки легки с этим софтом-же, не?
Вроде как, сам ажур. Связано ли с CrowdStrike, не знаю.
не, там полегло часть подсетей со всеми сервисами соотвественно - накатили network конфигурацию с ошибками. С CrowdStrike просто совпадение, но помогло отвлечь внимание. Кстати, Azure сегодня тоже частично лег.
Не, внутри МС этим антивирусным гуано не пользуется. Есть Defender, он документирован и он не занимается черной магией. Есть внутренный саппорт для него. В случае инцидентов известно кому звонить в 2 ночи. Учитывая кто у Ажура начальник и вес этого человека, все, кто создает проблемы Ажуру, быстро бегут их чинить. Кроме проблем бардака большой организации и оптимизации бюджетов, что в принципе не излечимо.
Ага, то есть Microsoft использовала систему CrowdStrike в своих облачных решениях, которые предлагала клиентам? Интересный поворот...
там 2 проблемы наложились в один день(звезды сошлись) - CrowdStrike + неправильные конфиги накатили в Азуре. Но, благодаря CrowdStrike, последние удалось не так сильно раскрутить.
Там даже не в один день случилось. За день до ClownStrike'а в Ажуре выпал один регион US Central. Но поскольку в правильную geo-redundancy умеют и хотят не только лишь все, то легло у многих.
Хм... Про собственные ошибки Microsoft в тот день сведений найти не могу. В пресс-релизе Microsoft — только сожаление о проблеме CrowdStrike, вроде как «ужасно, что вас затопило, но это потому что нас самих соседи сверху затопили»:
On July 18, CrowdStrike, an independent cybersecurity company, released a software update that began impacting IT systems globally. Although this was not a Microsoft incident, given it impacts our ecosystem, we want to provide an update on the steps we’ve taken with CrowdStrike and others to remediate and support our customers.
...
Additionally, CrowdStrike has helped us develop a scalable solution that will help Microsoft’s Azure infrastructure accelerate a fix for CrowdStrike’s faulty update.
В Ажуре вырубило один регион US Central. В теории это событие маловероятное, но возможное. И SLA прямо говорит, что один регион может быть потерян и что высоконадежные сервисы обязаны быть гео-распределенными по РАЗНЫМ регионам.
Но платить за 3 виртуалки вместо одной это же в 3 раза дороже! Да еще и трафик синхронизации между регионами дороже чем внутри одного датацентра. Да еще и производительность ниже. Вот дохрена буратин и экономят. Причем к внутренним Майкрософтовским командам это тоже относится. Там своя внутреняя бухгалтерия и отделы оплачивают друг другу услуги и ресурсы.
Странно, что Microsoft до сих пор не придумало как безболезненно откатиться после неудачного обновления. Не думаю что для этого нужно всю рабочую систему в памяти держать, а только те модули которые в данный момент обновляются. Сохранить их в память, условно гигабайт 5 на это понадобится, затем если появился синенький экранчик, автоматически откатиться на рабочую версию. Элементарные же вещи, или я чего-то не понимаю?
Так ведь есть всё. Три раза неудачная загрузка и появляется консоль восстановления с кнопочкой откатится к последней контрольной точке. Другое дело что на всяких киосочных терминалах нажать нечем.
Тут на днях наблюдал киоск/табло на линуксе. Он перезагружался до тех пор пока все нужное оборудование/софт не инициализируется/запустится. Причем участия человека там не наблюдалось. Это были явно низкоуровневые проверки во время загрузи, так как перезагрузка была как на моменте запуска системы так и запуска ПО. Не исключаю конечно какой либо удаленный kvm, и человека, но проверить это было нельзя.
Я помню терминал по оплате мобильников. Лёгким пинком по розетке он перезагружался. Во время перезагрузки на секунду показывался рабочий стол. В этот момент можно было успеть ткнуть IE, и он открывался поверх приложения оплаты. Там можно было ткнуть на домашнюю страницу, а на ней куча рекламы, в том числе сайты с техническими новостями. Ждать электричку становилось гораздо интереснее. Смартфонов тогда не было, как и электричек, соблюдающих расписание.
Если я правильно помню, то обновление на Crowd Strike ставилось не через механизм обновления винды, а самим crowd strike. Соотвественно, винда ничего об этом не знала. С ее точки зрения - ни с того ни с сего начал крешится критический драйвер, без которого загрузка невозможна в принципе.
Винда падала уже после появления окна логина, а иногда и после логина. У системы было вагон времени и возможностей откатить эту хрень автоматически. Так у нас, например, уже в понедельник сделали GPO, которое после двух-трех падений таки успевало примениться и выкосить испорченные файлы CrowdStrike. Просто лечить таким образом, например, сервер базы данных - себе дороже.
У системы было вагон времени и возможностей откатить эту хрень автоматически.
Ну в самом деле, какой антивирус позволит откатить или отключить свой компонент "автоматически"? В нем не будет вообще никакого смысла.
Так и драйвера не все грузятся сразу. ClownStrike драйвер - это интерпретатор. А скрипт для него они обновляют втихую. Драйвер в соответствии со скриптом шарится по памяти ядра и на лету проверят недокументированные структуры в памяти. Но вот беда, клоуны выкатили обновление файла скрипта нулевого размера. А драйвер был к этому не готов и стал крешиться когда надо было что-нибудь просканировать в памяти.
Обновление GPO процесс асинхронный, не быстрый, и не очень детерминированный. Поэтому на серьезных размерах домена GPO вообще нигде обновиться не успевал до того как машина в ребут уходила.
Тащила и тащила. У винды все равно должна быть контрольная точка с последнего обновления и ее можно было загрузить. А дальше уже и сама винда успешно обновится и это поделие. Это же терминалы, данных на них почти никаких нет. Либо загружается браузер с определенной страницей, либо одно предопределенное приложение, которое тоже тянет данные с сети.
Ну винда не гарантирует неубиваемости во время обновлений. Это всякие андроиды (и наши софт, кстати) поддерживает A/B партиции, когда абсолютно все (включая загрузчики) хранится в двух копиях и обновляется в два этапа.
Чтобы винда поняла что она не смогла стартовать - она должна успеть сохранить где-нибудь информацию о прошлой попытке запуска. А даже если она поняла что прошлый запуск провалился - что ей делать дальше? Чтобы восстановить предыдущую контрольную точку, ядро винды должно загрузиться и поднять все драйвера, включая сбойный драйвер. А сбойный драйвер не даст этого сделать. Была бы вторая, "чистая" партиция - можно было бы стартовать с неё. Но её нет. Сбойный драйвер помечен как "критический" и без него грузиться нельзя. Тупик.
Винда же создает контрольные точки при обновлениях и в данном случае это должно было помочь. Оно бы откатилось к состоянию без сбойного драйвера.
A/B разделы не гарантируют неубиваемости и криворучки из xiaomi недавно успешно это доказали.
Отсюда вывод - грязными кривыми руками можно порушить даже самую надежную ОС, если есть полный доступ к системе.
Не понимаете! С точки зрения Винды никакого обновления не было. ClownStrike специально тащили апдейт сами, втихую, чтоб ОС не вмешивалась. Тот файл, который они обновили, это даже не код был (с точки зрения ОС), а файл данных (конфиг). Соответсвенно никаких точек восстановления не создавалось.
Интересно, хоть у одной пострадавшей компании был WSUS сервер и проверка прилетающих обнов или там локальный сервер для распространения обнов CrowdStrike... или же сразу все машины смотрели в интернет.
CloudStrike пушит обновления напрямую, а не через инфраструктуру Microsoft, поэтому WSUS здесь не помощник, более того, клиенты не могут контролировать установку обновлений CrowdStrike, ну кроме конечно отключения компьютера от Интернета:
> "As far as we can tell there is not a good way to delay what signature files get pushed, hence everybody receiving the 7/18 23:09 (central time) signature file that blew up the world over the next hour."
Administrators have update lessons to learn from the CrowdStrike outage
Там вся архитектура этого чудо-драйвера была сделана с целью обойти WSUS, требования МС по подписанию и тестирование апдейтов драйверов. Т.е. специально разрабатывалось, чтоб бесконтрольно апдейты ядра выкатывать и чтоб никто остановить не мог.
Ну а юридически Евросоюз постановил, что МС не имеет права ограничивать сторонних производителей в их стремлении выливать говно в ядро.
Но они же уже извинились и дали $10 сертификат на убер :)
А представьте, какой вой на болотах поднимется, если они выиграют иск, а потом топ-менеджеры дельты получат регрессные иски на всю котлету по причине того, что их бонусы за несколько лет были обусловлены теми самыми увольнениями, из-за которых по их же признанию в компании образовалась нехватка специалистов поддержки.
Удачи... что-то подсказывает мне, что и она вряд ли поможет хоть что-то получить
Несмотря на вину производителя по,
В отсутствии адекватного плана на восстановление инфраструктуры после такого крупного сбоя в компании - виновата сама компания
Delta Airlines планирует через суд получить компенсацию в размере до $500 млн от CrowdStrike и Microsoft из-за IT-сбоя