company_banner

Сервис Microsoft Teams упал из-за просроченного сертификата



    3 февраля 2020 года сервис для совместной работы Microsoft Teams ушёл в офлайн в районе 5:30 ET (16:30 мск). Microsoft Teams позиционируется как конкурент Slack. Тысячи крупных и мелких компаний используют его для коммуникации своих сотрудников. Но в понедельник утром они не смогли подключиться, получая ошибки HTTPS-соединения.

    Расследование показало, что причиной падения сервиса стал просроченный сертификат.


    «Мы разрабатываем исправление, чтобы установить новый сертификат в службе, которая исправит последствия. Дополнительные обновления опубликованы в статье TM202916 в центре администрирования», — сказано в официальном твиттере Microsoft 365 Status, сообщение опубликовано в 17:19 мск.

    Примерно через час Microsoft сообщила о том, что сертификат создан, и компания начала его внедрение:


    Вместе с сертификатом внедряется служба мониторинга.

    Наконец, через пять часов Microsoft сообщила об успешной установке сертификата и завершении всех работ по восстановлению работы сервиса. Это произошло сегодня, 4 февраля 2020 года, в 0:27 мск.


    По информации пользователей, служба Microsoft Teams не работала около двух часов. На форуме Reddit более 400 комментариев на эту тему.

    Два месяца назад Microsoft объявила, что суточная аудитория Microsoft Teams достигла 20 млн пользователей и превзошла основного конкурента Slack, который в конце октября 2019 года рапортовал о суточной аудитории 12 млн. С июля по ноябрь прошлого года аудитория Microsoft Teams выросла на 50%. Многие аналитики считают, что этот продукт Microsoft станет очень популярным.

    Microsoft сама разрабатывает и продаёт инструменты для мониторинга компьютерной инфраструктуры, в том числе отслеживания срока действия сертификатов и автоматического обновления. Однако это уже не первый случай, когда у компании возникают проблемы с SSL на облачной инфраструктуре: «Это значит, что нужно более внимательно отнестись к вопросам как автоматизации, так и процедур контроля», — говорит Хольгер Мюллер (Holger Mueller), аналитик Constellation Research. Похожая ситуация произошла с облачным сервисом Windows Azure, у которого сертификат истёк 22 февраля 2013 года. В результате облачное хранилище было недоступно, проблемы также наблюдались с работой сервисов Xbox Music и Video.
    ITSumma
    Собираем безумных людей и вместе спасаем интернет

    Комментарии 38

      +9

      Время идёт, а компании наступают на всё те же грабли.

        0

        Майки уже не те)
        Вчера вместе с билдом 19555 в fast ring убили WSL2)
        Конечно бета, отказ от ответственности, все дела, но 90% fast ring юзают только из-за WSL.

          0

          а у меня 19555 "убил" админские права моей учётки. Точнее я вообще не понимаю что происходит: не запускается ни одно store приложение, ни один msi пакет, пишет типо
          Registration data is not valid. Only registered users can start MSI installation. And you must enter registration data into MSI launch script. И в папку store приложений даже зайти нельзя, не то что запустить. Только если руками права на full назначить юзеру. Странный баг… я тоже, конечно, всё понимаю и без претензий, лишь бы след билд это пофиксил. Хотел почитать баги в фидбек хабе, типо мож у кого уже тоже было — да не тут-то было — он тоже не запускается теперь ))) Просто ради любопытства интересно, что же они там такого хорошенько апдейтнули.

            0

            Rollback на 19501 вроде, к предыдущему

              0

              я жгу мосты удаляю откат сразу после установки, если всё запустилось, а баг я заметил не сразу )) Да не, ну жить можно… так-то обычный установленный софт пашет, новый тока не ставится, продержусь до следующего, а если уж не исправится, буду думать

            0
            Секундочку… Они отказались от WSL2 что-ли?
        +5
        We've initiated the deployment of the updated certificate and are monitoring service health as the fix progresses.
        Вместе с сертификатом внедряется служба мониторинга.

        Перевод некорректен. Они никакую службу мониторинга не внедряют. Они отслеживают состояние сервиса во время применения исправления.
        Так что могут и в следующий раз таким же образом упасть.
          +1
          Извиняюсь за некомпетентность, что за сертификат такой, что его меняют целых 5 часов? В моём весьма ограниченном понимании это делается максимум за полчаса, даже на продакшене. Или это бюрократия мешается? Никогда не работал в более-менее крупных ИТ компаниях, поэтому и спрашиваю.
            +4
            Создаете пул реквест, отправляете тикет на код рев'ю, ждете ответ от мейнтейнеров, потом деплой на тестовую среду, тестирование, пишете документ по процедуре деплоя, получение разрешения от продук овнера, деплой на прод. Где-то так… подозреваю что в майкрософт шагов может быть даже больше
              0
              Тут возникает проблема, когда серверов становится куча, разделены они по разным ДЦ в разных частях света, управляющие ими живут в разных часовых поясах. И всех их надо суметь внезапно скоординировать.
              Особенно забавно, например, если CI/CD было с этим же сертификатом, да и управление этой частью софта было по тому же https с тем же сертификатом и теперь брокеры соединений отказываются вас подключать к нужным серверам из-за его некорректности — и приходится разливать сертификат вручную.
                0

                Кстати да, у меня и нескольких других сотрудников тимс работал, в других нет. Наверное повезсло с сервером

                  +1
                  Да, не подумал, что сервер-то не один, и сложная инфраструктура скорее всего разбросана по частям света. И пул реквест и ревью, как описали выше… В общем, становится ясно, почему так долго чинили.
                  0

                  Ну вы же не знаете их инфраструктуру. Мб у них несколько SSL терминаторов и они не зависят друг от друга + бюрократия. Судя по инциденту и времени исправления — там все плохо.

                    +1
                    То что такой инцидент допустили это несомненно большая проблема и её тоже будут решать. А вот, то что на сервис с 20млн активных пользователей и сотнями, а если не тысячами серверов смогли выпустить фикс за 5 часов, это значит что работа команды разработки и развёртывания проделана на отлично. Тимс это не домашняя страничка на ПХП, куда можно просто зайти терминалом, подменить один файлик и перезапустить сервер
                      –2
                      Странички конечно ещё существуют, но сейчас на нормальных проектах, нужно всего лишь зайти в Vault, прописать сертификат и если автоматом не подтягивается — нажать кнопку в CI =) 5 часов на такое — это означает:
                      1. Отсутствие мониторинга и алертов
                      2. Бюрократия
                      3. Админов прессуют безопасники
                        0
                        В целом согласен, надо будет почитать их post mortem. Даже если сертфикаты лежат в волте и в случае такого инцидента можно зайти и руками поменять, то так просто всё равно не сработает, т.к. нужно чтобы сервисы перечитали сертификаты, они это делают либо по таймеру, либо при запуске. Значит нужно «нажать кнопку CI», только для тысячи серверов это означает подождать пару суток. Ведь нельзя просто перезагрузить все сервера в один момент, деплой идёт волной, обычно не более 5% сервисов одного типа обновляются, после обновления система ждёт некоторое время, чтобы увидеть зелёный мониторинг. В итоге, полная выкатка релиза на все окружения вполне может занимать несколько дней, это не ручная работа, всё полностью автоматизировано, с проверками и автоматическим откатом в случае проблем. Чтобы выпустить хотфикс за 5 часов и ничего не сломать придётся что-то хитрое сделать
                          0

                          Это внешние SSL терминаторы или балансеры) они очень лёгкие, зачем деплоить тысячи сервисов? 20ый год на дворе, обновить сертификат — 5 минут.

                            0
                            Например потому что, в компании может быть принята политика сквозного шифрования и этот сертификат применяется не только снаружи, но и внутри кластеров
                              0
                              Возможно, но я не представляю зачем такое делать, это внешняя зависимость во внутренней инфраструктуре и геморрой в управлении инфраструктурой.
                              Внутри кластеров обычно свой CA и self signed серты.
                    0

                    Не удивляюсь, если новый сертификат надо в пяти разных местах прописать, да ещё разными методами. Достаточно вспомнить этот процесс в WAC

                      0
                      По моим наблюдениям сам сервис не работал порядка часа-полутора, но о том что проблема решена сообщили спустя 5 часов.
                      –3
                      Не беда. Зато выбросы углерода сокращают. Скоро его засасывать начнут.
                        +1

                        4-го ноября на https://www.cloudflarestatus.com/ сертификат протух на каком-то из балансировщиков (поэтому сапорт мне сначала показывал, что "у нас всё работает"), так что с кем не бывает :)

                          –1

                          Поэтому LetsEncrypt и автоматическое продление сертификата рулит

                            0

                            Справедливости сказать — не отменяет необходимость мониторинга. Без мониторинга завалившийся летсенкрипт быстрее вылезет — сертификаты короче. А с мониторингом да, лучше, ибо час на раскатку не нужен.

                              –1

                              В том и дело, что при автоматическом автопродлении как например при letsencrypt нет особого смысла мониторить срок окончания сертификата, этим занимается бот, и автоматически продлевает. Если только мониторить с целью отслеживания сбоя в механизме автопродления

                                0

                                Мониторить обязательно.


                                У меня лично дважды были проблемы с автоматизацией, которые сразу не проявились. Хотя, казалось бы, все должно было работать.

                                  0

                                  Не так давно у меня перестали актуализироваться сертификаты из-за кривого релиза certbot (и самообновиться он уже тоже не мог). К счастью, там, где это было не критично, но узнал я об этом уже после протухания. Как говорится, доверяй, но проверяй.

                                0
                                Для микрософтовских сервисов автоматическое продление далеко не всегда доступно.
                                  0

                                  Например?

                                    0

                                    WAC

                                      0

                                      Кстати, удавалось заводить LE и под Windows Server. Но в случае с WAC, да, такой ресурс в паблик лучше не выставлять. Хотя "во второй версии" LE есть возможность получать wildcard сертификаты с помощью txt записи DNS (DNS-01 validation method), так что вполне возможно использование LE и для WAC

                                        0

                                        Речь не про возможность использования, а про автоматическое продление. И тут всё печально. Более-менее работает с веб-серверами и практически всё.

                                          0
                                          Интеграции по дефолту нет конечно. Но при желании можно организовать и автопродление, мне думается, если покопать в эту сторону.
                                            0

                                            Можно, но нужен будет оркестратор

                                –2
                                «Комментарий про то, какая крутая штука — автоматизированный перевыпуск краткосрочных сертификатов, как в Let`s Encrypt».
                                  0

                                  Как из этого


                                  We've initiated the deployment of the updated certificate and are monitoring service health as the fix progresses.

                                  был сделан такой вывод?


                                  Вместе с сертификатом внедряется служба мониторинга

                                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                  Самое читаемое