Вечером 8 июня провайдер сети доставки контента (CDN) Fastly пояснил причину масштабного сбоя. Оказалось, что достаточно большая часть ресурсов в интернете в течение часа оказалась недоступна из-за не обнаруженной ранее ошибки в программном обеспечении сервиса.
Клиенты провайдера, которые пользуются Fastly для ускорения загрузки своих страниц, включая Reddit, Stackoverflow, Spotify, Twitch, CNN, New York Times, Amazon, GitHub, gov.uk, Hulu, HBO Max, Quora, PayPal, Vimeo, Shopify, Stripe, The Guardian BBC, Financial Times и многие другие, выдавали на своих ресурсах пользователям ошибку 503: сервис недоступен.
Старший вице-президент Fastly по проектированию и IT-инфраструктуре Ник Роквелл (Nick Rockwell) рассказал, что инцидент начался из-за бага в программном обеспечении, которое инженеры Fastly развертывали на системах сервиса еще 12 мая. Однако, проблема была тихой и незаметной о тех пор, пока один из клиентов компании не поменял настройки и спровоцировал активацию бага, которая привела к глобальному падению работы всех серверов Fastly. Примерно 85% от затронутых проблемой систем стали выдавать ошибку в ответ на запросы пользователей.
Система мониторинга Fastly заметила проблему в течение одной минуты. Инцидент начался в 12:47 мск, а в 12:48 он был зафиксирован и компания начала расследование происшествия. Около 13:27 мск специалисты Fastly обнаружили изменения в настройках, которые вызывали проблему. Они были изолированы и отключены. Спустя девять минут большая часть клиентов начали поднимать свои сервисы и восстановили свою работу. Вечером Fastly распространила обновление, чтобы изолировать баг в своем ПО.
Fastly пояснила, что на определение и изолирование причины и отключении проблемной конфигурации компании ее специалисты поттратили несколько минут, а спустя 49 минут после сбоя около 95% клиентов уже работали в обычном режиме.
Fastly проведет дополнительное расследование, почему проблема не была выявлена ранее. Роквелл пояснил, что определенные специфические условия возникли слишком поздно, они спровоцировали отключение, но инженерам компании следовало их ожидать, даже при условии, что они не были выявлены в ходе нескольких этапов проверки качества и тестирования программного обеспечения.
Проблемы у пользователей с доступом ко множеству популярных сайтов начались 8 июня днем, причем практически сразу оказалось ясно, что это произошло из-за провайдера CDN Fastly. В настоящее время сервисы провайдера работают штатно. Примечательно, что финансовые проблемы у Fastly начались еще в мае, когда ее акции упали на 26% по причине отказаза от услуг этого провайдера CDN одного из крупных клиентов — TikTok. Этот сервис не упал вчера.