Комментарии 22
… к слову о централизации интернета.
Когда одна компания контроллирует львиную долю траффика — даже без злого умысла одна такая ошибка кладёт кучу сайтов.
И странно что их архитектура не отрабатывает автоматически разрыв связи между ДЦ и перераспределение нагрузки.
Статья оставляет ощущение, что всё висит на соплях и не очень квалифицированных дежурных инженерах.
Интересно, сколько сотен гигабит маршрутизировал неверно настроенный агрегат?
Видать, те же проблемы, что и у Боинга — наняли индусов с сертификатами?
Отдельные случаи, пусть даже неприятные — не показатель общего уровня. В очень сложной системе это почти неизбежно, по крайней если систему создали люди и пока они ей управляют.
Это примерно как с водителем автобуса — он может много лет ездить плавно и быть вежливым (и об этом никто слова не скажет), но стоит ему всего один раз (за все эти годы) резко затормозить или кому-то нагрубить — сразу начнутся разговоры в духе "совсем водители автобусов охренели", а о годах плавных вежливых поездок вспомнят разве что единицы.
Только у Cloudflare это уже третий случай падения за прошедший год.
Правда до этого у них 6 лет всё нормально работало (как они сами заявляют во время первого падения в июле 2019).
Три случая аж за год, да ещё при их масштабах… И это с учётом того что многие пользуются их услугами совершенно бесплатно — это, безусловно, ужасно плохой сервис, никто больше никогда такого у себя не допускает (наверное).
У них в блоге совсем недавно была новость об открытии многих новых ДЦ в новых странах. Так что я предполагаю, никто не успел допилить конфиг до нужного состояния после масштабирования...
Но администратор видит, что датацентр в Атланте не справляется с возросшей нагрузкой, BGP этого не понимает, поскольку маршрут всё таки есть. Человек переписывает правила BGP, чтобы снизить эту нагрузку и делает ошибку в командах. Может, не те строки скопировал из инструкции, абзацем ошибся. И всё, теперь BGP работает неправильно.
Старая шутка: на то он и отказоустойчивый кластер, чтобы падать:)
Такие косяки просто недопустимы когда ты «замкнул» на себе половину интернета.
И вот у меня вопрос: ладно, «исчезли» все, кто пользовался сервисами Cloudflare — это понятно и объяснимо, они или пользовались их днс или сидели за серверами, которые пользовались их днс. Но! Почему mail.ru не резолвился? Они же типа тут, местные.
Справедливости ради, это выбор каждого — использовать 1.1.1.1 (а также остальные сервисы) или нет, никто насильно не заставляет, недоступность ресурсов которые через них проксируются — косяк не только Cloudflare но также и владельцев ресурсов.
Хочется HA — не стоит расчитывать на одного провайдера независимо от его крутизны и обещаний, у меня по умолчанию стоит ещё и 8.8.8.8 — и всё работало (теперь, наверное, ещё кого-то добавлю).
Что интересно — на пинги 1.1.1.1 таки отвечал, только вот время ответа было сначала ~130ms и чуть позже ~380ms (с потерями около 50%) вместо обычных 15ms, я сначала подумал что таки накрыло их мощнейшей DoS...
Cloudflare заявила, что сожалеет об этом неумышленном сбое.
Работаю в сетевой компании и когда происходят какие-то аварии, потребители само собой начинают звонить диспетчеру, так вот не было ни одной(со слов диспетчеров) серьезной аварии, чтобы кто-нибудь из звонивших не сказал «вы должны были нас заранее предупредить что сегодня авария будет».
Сервис Cloudflare был недоступен в течение получаса из-за ошибки в конфигурации маршрутизатора