Cloudflare признала, что часть ее сервисов упали на четыре с половиной часа из-за отключения немаркированных кабелей / Хабр

Согласно информации издания Register и публикации в корпоративном блоге компании Cloudflare, в середине апреля 2020 года произошел серьезных инцидент, приведший к прерыванию на четыре с половиной часа сервисов Cloudflare Dashboard и Cloudflare API.

Данный сетевой инцидент 15 апреля 2020 года начался с планового технического обслуживания в одном из основных центров обработки данных компании. В ходе работ инженеру, занимающемуся демонтажем, было дано простое задание от технических специалистов Cloudflare — отключить и убрать все сетевое оборудование в одном из телекоммуникационных шкафов. По информации сетевых инженеров компании, в этом шкафу было установлено устаревшее сетевое и серверное оборудование, которое в сети компании уже не было задействовано, поэтому работы проводились инженером без остановки сервисов и в обычное рабочее время.

Однако, в реальности оказалось, что в этом шкафу был установлен коммутационный оптический кросс, обеспечивающий все внешние подключения к другим дата-центрам Cloudflare. Инженеру понадобилось менее трех минут, чтобы отключить все немаркированные оптические кабели и патч-корды от этого оптического кросса, который был единственной точкой отказа для этого центра обработки данных Cloudflare.

«Начиная с 15:31 UTC и продолжая до 19:52 UTC, сервисы Cloudflare Dashboard и Cloudflare API стали недоступны из-за отключения нескольких избыточных оптоволоконных соединений в одном из наших основных центров обработки данных», — заявил в блоге представитель Cloudflare.

После регистрации инцидента сетевые специалисты компании пытались максимально разобраться в произошедшем, но это заняло у них много время, так как многие оптические кабели как в телекоммуникационном шкафу, где проводились работы, так и в других местах дата-центра, не были правильно промаркированы, из-за чего пришлось выполнять на месте дополнительные проверки соединений с помощью специального оборудования.

Также для решения этой проблемы более двадцати сетевых инженеров работали удаленно, помогая организовать восстановление связи и следили за аварийным восстановлением сервисов после сбоя.

Cloudflare обещает, что не будет наказывать инженера, проводившего регламентные технические работы, закончившиеся аварией. В компании примут дополнительные меры как проектного, так и технического характера, чтобы подобные происшествия не случались в будущем.

Вдобавок в Cloudflare уверили, что информация клиентов не пострадала, просто у них пропал доступ к части сервисов компании, а все конфигурационные данные были сохранены компанией и не изменились во время инцидента.

Во время инцидента продолжали штатно работать: сама сеть Cloudflare, прокси-сайты клиентов и приложения, в том числе Magic Transit, Cloudflare Access, Cloudflare Spectrum, Web Application Firewall. Также полноценно функционировали все системы безопасности компании.

Ранее 22 июля 2019 сервис Cloudflare был недоступен в течение 27 минут, причем одной из причин стало неправильного использования инженером регулярного выражения в правиле для обнаружения XSS с помощью автоматического процесса.