denis-19 18 июл 2020 в 08:45

Сервис Cloudflare был недоступен в течение получаса из-за ошибки в конфигурации маршрутизатора

2 мин

8.9K

Сетевые технологии*IT-компании

+21

Комментарии 22

blind_oracle 18 июл 2020 в 09:28

… к слову о централизации интернета.

Когда одна компания контроллирует львиную долю траффика — даже без злого умысла одна такая ошибка кладёт кучу сайтов.

И странно что их архитектура не отрабатывает автоматически разрыв связи между ДЦ и перераспределение нагрузки.

AVAF 18 июл 2020 в 09:42

Статья оставляет ощущение, что всё висит на соплях и не очень квалифицированных дежурных инженерах.

Интересно, сколько сотен гигабит маршрутизировал неверно настроенный агрегат?

helgifisher 18 июл 2020 в 10:21

Видать, те же проблемы, что и у Боинга — наняли индусов с сертификатами?

-3

Tangeman 18 июл 2020 в 14:44

Отдельные случаи, пусть даже неприятные — не показатель общего уровня. В очень сложной системе это почти неизбежно, по крайней если систему создали люди и пока они ей управляют.

Это примерно как с водителем автобуса — он может много лет ездить плавно и быть вежливым (и об этом никто слова не скажет), но стоит ему всего один раз (за все эти годы) резко затормозить или кому-то нагрубить — сразу начнутся разговоры в духе "совсем водители автобусов охренели", а о годах плавных вежливых поездок вспомнят разве что единицы.

NikitaCartes 18 июл 2020 в 17:52

Только у Cloudflare это уже третий случай падения за прошедший год.
Правда до этого у них 6 лет всё нормально работало (как они сами заявляют во время первого падения в июле 2019).

Tangeman 18 июл 2020 в 20:13

Три случая аж за год, да ещё при их масштабах… И это с учётом того что многие пользуются их услугами совершенно бесплатно — это, безусловно, ужасно плохой сервис, никто больше никогда такого у себя не допускает (наверное).

rzerda 19 июл 2020 в 05:15

«Ничто так не поднимает боевой дух солдата, как вид его товарища, севшего в калошу».

НЛО прилетело и опубликовало эту надпись здесь

Dorval 18 июл 2020 в 11:50

BGP настраивается вручную с помощью правил и сетевых политик, их задают сетевые администраторы. Они задают, например, номер автономной системы и как найти соседние автономные системы и их номера. Нет какого-то единого центра, который раздает топологию Интернета всем остальным. Отсюда вывод: сбои в Интернете были, есть и будут происходить и дальше.

НЛО прилетело и опубликовало эту надпись здесь

shifttstas 18 июл 2020 в 12:13

У них в блоге совсем недавно была новость об открытии многих новых ДЦ в новых странах. Так что я предполагаю, никто не успел допилить конфиг до нужного состояния после масштабирования...

НЛО прилетело и опубликовало эту надпись здесь

Dorval 18 июл 2020 в 12:13

Смотрите: канал отвалился между Ньюарком и Чикаго. Нагрузка автоматически перераспределилась между Атлантой и Вашингтоном. Всё замечательно.
Но администратор видит, что датацентр в Атланте не справляется с возросшей нагрузкой, BGP этого не понимает, поскольку маршрут всё таки есть. Человек переписывает правила BGP, чтобы снизить эту нагрузку и делает ошибку в командах. Может, не те строки скопировал из инструкции, абзацем ошибся. И всё, теперь BGP работает неправильно.

uldashev 18 июл 2020 в 12:12

Старая шутка: на то он и отказоустойчивый кластер, чтобы падать:)

Renaissance 18 июл 2020 в 14:10

Забавно, столько сервисов недоступных перечислено и ни слова про 1.1.1.1, недоступность которого просто убила доступность всего остального «живого» интернета. Лично у меня оно просто перестало даже отвечать на пинги, при этом проверил с рабочего ПК (хотя провайдер тот же по сути) — там оно было доступно.

Такие косяки просто недопустимы когда ты «замкнул» на себе половину интернета.

Fahrain 18 июл 2020 в 14:26

Гораздо интереснее, что аналогичным образом себя вел днс от гугла, который 8.8.8.8. Причем мой местный провайдерский тоже лег, с теми же симптомами — выдавал таймаут на бОльшую часть запросов и всё. Единственный, кто работал — днс от яндекса (но они, видимо, просто не успели обновить?)

И вот у меня вопрос: ладно, «исчезли» все, кто пользовался сервисами Cloudflare — это понятно и объяснимо, они или пользовались их днс или сидели за серверами, которые пользовались их днс. Но! Почему mail.ru не резолвился? Они же типа тут, местные.

Loggus66 18 июл 2020 в 15:12

DNS от Yandex тоже не работал, как раз dig'ал в этот момент все, что помнил, пытаясь найти рабочие.

Fahrain 18 июл 2020 в 15:15

Ну, значит мне повезло — я 77.88.8.8 использовал пока сбой шел, всё нужное — работало

Tangeman 18 июл 2020 в 22:09

Справедливости ради, это выбор каждого — использовать 1.1.1.1 (а также остальные сервисы) или нет, никто насильно не заставляет, недоступность ресурсов которые через них проксируются — косяк не только Cloudflare но также и владельцев ресурсов.

Хочется HA — не стоит расчитывать на одного провайдера независимо от его крутизны и обещаний, у меня по умолчанию стоит ещё и 8.8.8.8 — и всё работало (теперь, наверное, ещё кого-то добавлю).

Что интересно — на пинги 1.1.1.1 таки отвечал, только вот время ответа было сначала ~130ms и чуть позже ~380ms (с потерями около 50%) вместо обычных 15ms, я сначала подумал что таки накрыло их мощнейшей DoS...

Firz 18 июл 2020 в 18:28

Cloudflare заявила, что сожалеет об этом неумышленном сбое.

Работаю в сетевой компании и когда происходят какие-то аварии, потребители само собой начинают звонить диспетчеру, так вот не было ни одной(со слов диспетчеров) серьезной аварии, чтобы кто-нибудь из звонивших не сказал «вы должны были нас заранее предупредить что сегодня авария будет».

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Сервис Cloudflare был недоступен в течение получаса из-за ошибки в конфигурации маршрутизатора

Комментарии 22

Другие новости

Истории