Как стать автором
Обновить

Сбой в работе Microsoft 365 произошёл из-за неправильного обновления внутреннего центрального репозитория конфигураций

Время на прочтение3 мин
Количество просмотров4.1K


Microsoft раскрыла, что пятичасовой сбой в работе Microsoft 365 по всему миру 21 июля произошёл из-за неправильно собранного обновления, которое инженеры компании установили при выполнении работ во внутреннем центральном репозитории конфигураций. Инцидент повлиял на многих клиентов и облачные сервисы компании, в которых также используется система Enterprise Configuration Service (ECS).

Централизованные облачные сервисы Microsoft позволяют с помощью специальных инструментов вносить широкомасштабные динамические изменения в работу служб и облачных приложений, а также целевые изменения, такие как определённые конфигурации для каждого партнёра, корпоративного клиента или группы конечных пользователей. Неправильная настройка центральной корпоративной службы конфигураций ECS привела к каскадным сбоям в работе сервисов Microsoft 365 и затронула корпоративных пользователей в нескольких регионах.

Причем инцидент поначалу был незначительным. Он выглядел по логам, как сбой в работе Microsoft Teams. Потом его влияние начало резко расширяться на другие облачные сервисы. В конечном итоге сбой затронул нескольких служб Microsoft 365 с интеграцией Teams, которые также используют ECS, включая Exchange Online, Windows 365 и Office Online.

В результате корпоративные пользователи со всего мира начали сообщать Microsoft, что не могут использовать Microsoft Teams и ещё несколько служб или функций Microsoft 365.

«Эта проблема повлияла на возможность подключения пользователей к настольным, веб- и мобильным клиентам Microsoft Teams», — пояснила Microsoft в своем предварительном отчёте.

Microsoft уточнила, что телеметрия выявила 300 тыс. пострадавших клиентов. Больше всего пострадали компании из Азиатско-Тихоокеанского региона (APAC), так как там был рабочий день во время сбоя. Европейские и Американские заказчики пострадали в меньшей степени. Кроме того, у пострадавших корпоративных клиентов возникло больше всего проблем с неработающими службами Direct Routing и Skype MFA.

Согласно отчёту Microsoft, сбой произошёл 21 июля в 4:05 мск. Инженеры компании устранили большую часть связанных с ним проблем в течение пяти часов. К 9:00 мск Microsoft 365 снова заработал штатно. Некоторые клиенты ещё наблюдали остаточные проблемы с облачными сервисами Microsoft до 16:00 мск.

Расследование показало, что инцидент затронул клиентов, которые пытались использовать одну или несколько из следующих служб и функций Microsoft 365 (все они в той или иной степени пострадали из-за сбоя):

  • Exchange Online (наблюдалась задержка в отправке почты);
  • Центр администрирования Microsoft 365 (был закрыт доступ);
  • Microsoft Word в нескольких облачных сервисах (не загружался);
  • Microsoft Forms (невозможность использования через Teams);
  • Microsoft Graph API (была затронута любая служба, использующая этот API);
  • Office Online (были проблемы с доступом к Microsoft Word);
  • SharePoint Online (были проблемы с доступом к Microsoft Word;
  • Project Online (был закрыт доступ);
  • PowerPlatform и PowerAutomate (невозможность развертывания новой среды с использованием баз данных);
  • автоматические обновления в Microsoft Managed Desktop (был закрыт доступ);
  • Yammer (были проблемы с запуском Yammer);
  • Windows 365 (нельзя добавить и создать новые облачные ПК).

«Обновления для развёртывания в нашей службе ECS содержало дефект в коде, который повлиял на обратную совместимость с другими службами, использующими ECS. Конечным результатом было то, что службы, использующие ECS, возвращали неверные конфигурации всем своим подключённым партнёрским сервисам», — признали в компании. «Это привело к тому, что нижестоящие сервисы компаний и облачных служб, подключённые к Microsoft, получали сообщение о состоянии с кодом 200, который указывал, что извлечение конфигурации было успешным. На самом деле оно содержало искажённый и нерабочий JSON-объект", — уточнили эксперты компании.

Microsoft заявила, что в результате этого инцидента в компании доработают механизм отказоустойчивости службы Microsoft Teams для возврата к кэшированной версии конфигурации ECS в случае подобного сбоя при обновлениях ECS в будущем. Компания также внедрит инструменты для дополнительной изоляции сбоев, чтобы ограничить их влияния, а также скорректирует пороговые значения мониторинга, чтобы лучше выявлять такие низкоуровневые сбои на начальных этапах их возникновения.
Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
Всего голосов 3: ↑3 и ↓0+3
Комментарии9

Другие новости

Истории

Работа

Ближайшие события