shurup Oct 5 2021 at 07:56

Из-за чего Facebook стал глобально недоступен. Технический ликбез

6 min

128K

Флант corporate blogNetwork technologies*Social networks and communities

Translation

+156

160

Comments 160

idelgujin Oct 5 2021 at 08:15

Ну встала у СММ-щиков работа ненадолго, ну какие-то бизнес-механизмы легли. А вот что будет если лягут подключенные облачно jQuery или bootstrap например. Кажется мне, больше половины сайтов перестанут работать корректно.

esc Oct 5 2021 at 08:31

Уверен, сервисы FB посещают гораздо больше людей, чем все сайты, которые получают ключевые библиотеки с одного какого-то публичного CDN. Будет повод перенести библиотеки к себе, ведь межсайтовое кэширование уже сломано и толку от единых CDN стало гораздо меньше.

ivanezko Oct 5 2021 at 15:46

"межсайтовое кэширование уже сломано" поясните пожалуйста

willyd Oct 5 2021 at 15:57

Если сайты abc.com и cba.com запрашивают одинаковые файлы cdn.com/script.js и cdn.com/style.css. То браузер будет качать эти файлы лишь однажды.

подозреваю, что теперь эта фича кеширования изменена.

dartraiden Oct 7 2021 at 02:07

Да, теперь браузер скачает файл дважды и будет хранить две копии. Именно так работает Network Partitioning. С ростом пропускной способности каналов связи польза от общего кэша уменьшилась настолько, что лучше отказаться от него в пользу большей приватности.

NikitchenkoSergey Oct 5 2021 at 17:29

В современных браузерах кеш разделяется по доменам для того, чтобы нельзя было отследить, посещали ли вы другой сайт. Например, я могу разместить скрипт с уникальным названием на сайте А, и посмотреть, загружали ли вы этот ресурс при открытии сайта Б.

bolk Oct 5 2021 at 21:34

Каким образом?

matshch Oct 5 2021 at 21:50

Сайт Б может своими скриптами подключить тот самый уникальный скрипт с сайта А и замерить время, сколько он будет грузиться. Если этот скрипт загрузится практически мгновенно — значит он уже был в кэше.

bolk Oct 5 2021 at 22:40

Так и думал, спасибо.

rafuck Oct 5 2021 at 23:16

Плюс к этому еще навскидку performance.now и :visited.

x512 Oct 7 2021 at 16:12

А почему нельзя сохранить время загрузки этого скрипта с сайта А и отдавать сайту Б с такой же задержкой?

-1

matshch Oct 8 2021 at 11:29

Сайт Б может попробовать сначала много раз реально запросить скрипт с сайта А (добавляя незначащие GET-параметры), построить текущее распределение времени загрузки данного скрипта, а потом запросить тот же скрипт ровно таким образом, как это делает сайт А, и проверить статистическую вероятность того, что время загрузки этого скрипта подходит под построенное распределение. Учитывая, что интернет сущность весьма динамичная, вполне может оказаться, что записанная заранее задержка не сойдётся с текущей реальностью, и опять же вскроется, что пользователь уже был на сайте А.

Semen55338 Oct 5 2021 at 17:07

Толк от хранения библиотек в CDN пропал с массовым переходом на http/2.

izogfif Oct 5 2021 at 18:06

Но ведь CDN снижает нагрузку на собственный сайт и уменьшает время, за которое грузится ресурс, из-за того, что этот самый ресурс грузится с более близкого к конечному пользователю узла CDN. Разве нет?

johnfound Oct 5 2021 at 18:37

Разве нет?

Так утверждают. Но мой опыт ясно говорит – все сайты, которые используют CDN, медленные. И наоборот, все быстрые сайты, CDN не используют.

Да, может причина и следствие перепутаны, но я бы сказал – делайте сайты, которые в CDN не нуждаются.

hiewpoint Oct 5 2021 at 21:46

Да-да. Если у них нет хлеба, пусть едят пирожные.

Gugic Oct 5 2021 at 22:42

В целом утверждение не совсем корректное. Взрослые быстрые сайты конечно же используют CDN, только они используют CDN как часть своей "собственной" облачной инфраструктуры, со своими собственными доменами, а не как какую-то левую публичную зависимость.
Cloudflare там, Google Cloud CDN, Cloudfront и иже с ними.

khegay Oct 6 2021 at 10:44

Я думаю, тут разные сущности CDN.
Например, я писал сервис на Angular. В нем есть возможность деплоя на другой УРЛ. Был выбрал AWS.
Никто другой не будет использовать эти скрипты на своих сайтах. А вот для пользователей скорость загрузки сайта уменьшается, так как запрос идет к ближайшему для них серверу.

Wendor Oct 6 2021 at 15:16

Знали бы вы, как спасает CDN, когда твои сервера раздают hls-видео на тысячи людей

Semen55338 Oct 6 2021 at 11:17

Это тоже влияет, но основной эффект снижения нагрузки предполагался за счет уменьшения количества запросов в веб-серверу, которые не могли выполнятся параллельно в рамках одного TCP соединения, что стало не актуальным с появлением http/2, который поддерживает мультиплексирование.

select26 Oct 5 2021 at 18:17

Повод перенести библиотеки к себе был всегда. Именно из за ненулевой вероятности такого случая.
И даже частичная потеря связности для клиента (например РКН) запросто обрушит сайт при недоступности того же jquery.
Никогда не понимал почему оставляют внешнюю ссылку. И никогда не принимал работу с внешними ссылками на ресурсы.

Gugic Oct 5 2021 at 22:46

Помнится когда под горячую руку РКН при попытках блокировки телеграмма попали гугловские айпишники, огромное количество сайтов встало колом от того, что использовало блокирующую загрузку шрифтов с гуглового fonts.google.com. (браузер ждал таймаута и только после него загружал сайт).

VitalKoshalew Oct 6 2021 at 04:41

Не оправдывая завязку на внешние ресурсы, замечу, что по стандарту browser не должен создавать много одновременных соединений с одним доменом. А с разными — может. Поэтому, положив библиотеки на другие домены, можно добиться их параллельной загрузки. Если бы ещё и про fallback кто-нибудь думал при этом, то это было бы не худшим решением.

Во многих случаях, как уже заметили выше, HTTP/2 нивелирует выигрыш, при условии нормальной ширины канала между сервером и пользователем.

select26 Oct 6 2021 at 10:31

Даже если и так, никто не мешает использовать, например, домен static.yourdomain.com, который вы контролируете, для хранения зависимостей.

kost Oct 6 2021 at 19:09

Не оправдывая завязку на внешние ресурсы, замечу, что по стандарту browser не должен создавать много одновременных соединений с одним доменом.

Можно чуть подробнее об этом?
Ссылку на стандарт? И «много» — это сколько?

VitalKoshalew Oct 7 2021 at 02:24

RFC2616 §8.1.4

A single-user client SHOULD NOT maintain more than 2 connections with any server or proxy.

На практике в последние годы без прокси-сервера лимит у некоторых browser-ов можно было повысить или даже был повышен по умолчанию, с прокси-серверами было максимум 2, когда я проверял в последний раз.

johnfound Oct 7 2021 at 15:36

RFC-2119:

SHOULD NOT This phrase, or the phrase "NOT RECOMMENDED" mean that
there may exist valid reasons in particular circumstances when the
particular behavior is acceptable or even useful, but the full
implications should be understood and the case carefully weighed
before implementing any behavior described with this label.

Если очень хочется, то можно.

-2

Akuma Oct 5 2021 at 09:19

Уже ложилось, помню. Про быстренько перенесли к себе те, кто умел, остальные дождались поднятия, ничего особенного.

Acuna Oct 5 2021 at 23:15

Заскриню этот коммент чтобы запостить этот скрин когда уже совсем скоро эта страна будет отрезана от интернета в рамках т. н. "суверенного интернета". Ничего ведь особенного не произошло.

-4

grumbler66rus Oct 12 2021 at 11:19

В описываемом вами сценарии все сайты, размещённые на зарубежных хостингах, будут недоступны

Acuna Oct 12 2021 at 16:51

Плохо что до сих пор остались люди, не понимающие сарказм, живя в этой стране, у них же все нормально и "ничего особенного" не произошло.

-3

Ansud Oct 5 2021 at 10:18

Ага, плюс встала работа везде, где есть "Login with Facebook"

+13

fishHook Oct 5 2021 at 14:12

а эти ресурсы должны же кэшироваться браузером?

Acuna Oct 5 2021 at 23:16

Должны, только вначале же для этого их нужно откуда-то получить чтобы закэшировать уже в браузере юзера

susnake Oct 6 2021 at 11:05

У меня в последние несколько месяцев bootstrap отрыгивается на некоторых сайтах

pavelsc Oct 6 2021 at 13:45

Принцип Парето в отношении сайтов еще более перекошенный. Как правило это легаси недобложики в своей массе с околонулевым траффиком, сейчас любой уважающий себя июнь даже калькулятор запихивает в вебпак, а веб проекты, в которые не стыдно кидать свое резюме, используют route 53.

major-general_Kusanagi Oct 5 2021 at 08:38

А из-за чего двери у сотрудников заблокировались и они не могли попасть в свои офисы?

Djeux Oct 5 2021 at 08:48

Как вариант, система пропусков тоже использовала инфраструктуру мордокниги и не могла достучаться для проверки допуска.

Грубо говоря, чтобы поднять упавшую систему надо чтобы упавшая система была не упавшей.

Rohan66 Oct 5 2021 at 09:48

Интересно, а как разблокируется в случае стихийного бедствия? Должна же быть у охраны "тревожная" кнопка.

khabib Oct 5 2021 at 10:07

Возле дверей, изнутри комнат есть что то вроде пожарной кнопки, которая разблокирует дверь. Но и охрана получает сигнал, что дверь разблокирована аварийно.

andreishe Oct 5 2021 at 10:18

По правилам пожарной безопасности изнутри двери должны открываться безо всяких кнопок. Сигнализацию, конечно, это не отменяет.

khabib Oct 5 2021 at 10:44

Там два блока на стене, первый "красный пожарный" - про спуск лифтов на первый этаж, разблокировку всей дверей в здании и сирену. Второй - зеленый, который аварийно разблокирует конкретную дверь.

UPD. "Там" это не FB, это в нашем кампусе другой конторы

UFO just landed and posted this here

vtitans Oct 6 2021 at 04:27

Это касается пожарных выходов, а не входов и это российские правила. В других странах все по своему

UFO just landed and posted this here

slarionoff Oct 5 2021 at 10:24

В порядке стёба - получает через лежащую систему?

mehos Oct 5 2021 at 10:45

СКД по тревоге, обычно, разблокирует проходы на выход, а не на вход)

Rohan66 Oct 5 2021 at 10:50

Сломай систему - войди через выход! )))

morijndael Oct 5 2021 at 16:59

Скорее наоборот — почини систему :D

mehos Nov 1 2021 at 11:31

Хотел бы я на это посмотреть, в случае с ростовым турникетом:)

UFO just landed and posted this here

Maksmsk Oct 5 2021 at 08:44

Больше интересно, почему анонсы по BGP пропали.

+20

shurup Oct 5 2021 at 08:46

Согласен, что интересно… Для этого нужно ждать информацию от самой Facebook. Им явно придётся выдать на публику какой-то отчёт. Пока есть только такое.

ermouth Oct 5 2021 at 09:16

Информация от ФБ исходит из пиар-департамента, так что это или лукавство для отвода глаз, или просто прямая ложь, чаще последнее. Уверен, в этот раз будет точно так же, признаки уже есть типа заявлений ФБ в Тви, что падение затронуло «некоторых» пользователей.

Так что как раз не от ФБ.

Revertis Oct 5 2021 at 16:11

От самого ФБ не лучше: https://engineering.fb.com/2021/10/04/networking-traffic/outage/

tyomitch Oct 5 2021 at 16:36

Вероятно, подпись под постом -- "Santosh Janardhan, VP Infrastructure" -- объясняет больше, чем сам пост.

ermouth Oct 5 2021 at 16:48

Да, по три that в одном предложении – это, конечно, не пиар-департамент готовил текст. Тем не менее, любой сотрудник ФБ обязан согласовывать такие штуки, это прямо сказано вот тут https://developers.facebook.com/devpolicy/, ищите «PR Guidelines» на странице.

Revertis Oct 5 2021 at 19:12

Я скорее о том, что там никаких подробностей. Пост построен по такому принципу:

Извините, что у нас получилась ошибочка, ведь нашими сервисами пользуются сотни миллионов.
Мы всё поняли, научились, такого больше не будет.
Нашими сервисами пользуются сотни миллионов (опять), и вам лучше не думать о плохом, ведь сотни миллионов мух не могут ошибаться.

Clasen01 Oct 6 2021 at 05:19

там деталей завезли https://engineering.fb.com/2021/10/05/networking-traffic/outage-details/

Aleksandr-JS-Developer Oct 5 2021 at 18:27

или лукавство для отвода глаз, или просто прямая ложь

Тошно от лжи уже. Особенно когда она такая прямая и очевидная. Они просто всех дураками выставляют

-1

select26 Oct 5 2021 at 18:24

У нас много ребят в FB работают. На перерыве коллега встречался с одним и вот что написал:
So a friend told me that someone did a change on TF or other automation system that changed some config on all of the routers and withdraw the routes, also like everyone knows its the same infra as all of their internal tools bu they have an emergency infra just for these cases that they can fail over all of their internal system to this infra.. apperantly 90% of the company was not familliar with this infra :sweat_smile:

So no one knew how to fail over to it and most of them did not even know it exists.

UFO just landed and posted this here

v1000 Oct 5 2021 at 09:05

Второй закон Вейнберга: если бы строители строили здания так же, как программисты пишут программы, первый залетевший дятел разрушил бы цивилизацию.

в последнее время похожее все чаще можно сказать и про администраторов, которые настраивают роутеры.

HenryPootle Oct 5 2021 at 18:26

Как человек, первую половину нулевых проработавший в Тир-1 провайдере, могу сказать, что так было всегда.

bolk Oct 5 2021 at 21:37

Этот второй закон очень слабая аналогия. Здания не обладают такой внутренней сложностью, как программы.

gudvinr Oct 5 2021 at 22:31

Так может это не причина, а следствие. Чем проще структура, тем сложнее её поломать.

Ну и на любой замок поглядите — средневековый или наших дней. Там такие кубернетесы внутри порой бывают. А обычные человейники — это как сайты на CMS, их делают для массового потребления.

bolk Oct 5 2021 at 22:43

Не понял вашу мысль. Вы полагаете, что программы надо писать гораздо проще, чем пишутся сейчас? Вряд ли их можно писать существенно проще, кроме того, это серьёзно замедлит время разработки, что никого не устроит.

dissable Oct 6 2021 at 04:28

В целом, программы едва ли не всегда должны быть написаны проще, но есть нюанс... как говорится.

Muzzy0 Oct 5 2021 at 23:00

здания не перепроектируют заново по мере возведения каждого этажа. Или сроки горят: сдаём MVP без водопровода.

mrBarabas Oct 6 2021 at 01:32

Вспомнились фотографии со строительства под олимпиаду в Сочи)

johnfound Oct 6 2021 at 01:42

Agile архитектура желаете?

bolk Oct 6 2021 at 07:22

Программы тоже не перепроектируют. Вокруг готовые библиотеки и фреймворки.

UFO just landed and posted this here

Muzzy0 Oct 10 2021 at 10:33

добавить пару этажей в проект к уже строящемуся дому

А как насчёт несущие конструкции подвинуть, чтобы планировку изменить? ;)

gavk Oct 6 2021 at 06:00

Уважаемый строитель, перенесите-ка здание на 5 метров влево. А можно ещё такое же здание, только на 50 метров дальше? Как нужны ещё ресурсы?

rumatavz Oct 5 2021 at 09:08

В 16:58 UTC мы заметили, что Facebook перестал анонсировать маршруты для своих DNS-префиксов.

Это происходит по той причине, что в DNS, как и во многих других системах в интернете, используется свой механизм маршрутизации.

Автор оригинальной статьи зачем то(может для упрощения) смешал в одну кучу 7 и 4 урони модели OSI. Маршрутизация это 4, DNS 7. И связаны они в этой истории тем, что DNS сервер, как и любой другой сервер тоже находится в сети и взаимодействует в тч на 4 уронве. И в DNS нет ни маршуртизации(в строгом смысле этого слова) ни анонсирования маршрутов.

Maksmsk Oct 5 2021 at 09:16

Все таки маршрутизация это 3 уровень модели osi

+11

Maksmsk Oct 5 2021 at 09:18

Но остальная мысль правильная нет смысла говорить о доступности dns если нет маршрутизации.

+11

yarigpopov Oct 5 2021 at 09:13

И никакие микросервисы не спасли.

ekrokhin Oct 5 2021 at 12:18

А как микросервисы должны спасти от поломки маршрутизации? Монолит бы не сломался?

+13

UFO just landed and posted this here

evgenyk Oct 5 2021 at 14:01

Вот и не спасли! :)

+19

UFO just landed and posted this here

evgenyk Oct 5 2021 at 15:51

Конечно это была шутка с моей стороны, но если серьезно, то микросервисы понижают устойчивость к сетевым ошибкам.

yarigpopov Oct 5 2021 at 16:53

Рад видеть, что нашлись люди, понявшие мою шутку)

bulatsir Oct 5 2021 at 09:18

В статье нет ответа что именно сломалось у Facebook, то что DNS серверы Facebook не отвечали, разве что.

+12

FedorovDimulya Oct 5 2021 at 15:49

так вроде официального отчета от самой фб и не было, вот, вся инфа, что есть представлена

shurup Oct 5 2021 at 15:54

Вот тут теперь что-то появилось.

Revertis Oct 5 2021 at 16:15

Так все подсети (ASN) Фейсбука просто пропали из Интернета. А для юзеров это было заметно по неработающему DNS, так как первое, что мы делаем при открытии ссылок это резолвим домен.

myz0ne Oct 5 2021 at 16:33

Там похоже не только DNS для внешних клиентов отваливался, т.к. если прописать в hosts ip facebook.com он все равно не открывался.

Отвалились не все подсети, как минимум анонсы ipv6 были доступны (судя по ripestat). Но при этом эти сервера не отвечали на пинги и на днс запросы.

Calc Oct 11 2021 at 23:01

Ну так автономная система отвалилась, а IP у них в собственности. Вот и привет

myz0ne Oct 12 2021 at 18:55

Что вы подразумеваете под "автономная система отвалилась"? Изначально подразумевалось что связанность роутеров с миром осталась, просто пропала часть анонсов.

В подтверждение: их static.xx.fbcdn.net (сервера, обслуживающие этот ип) оставался доступен и вполне отдавал статику для клиентов у кого не протух кеш днс (или есть запись в hosts).

AS у серверов статики (31.13.84.0/24 is announced by AS32934) и у ДНС (129.134.30.0/24 is announced by AS32934) одинаковые, т.е. получается что роутеры связанность имели. Как минимум в части ДЦ. И соответственно возник вопрос - почему анонс по ipv6 для серверов обслуживающих ДНС был, но при этом сами сервера не отвечали.

MartiniStar Oct 5 2021 at 09:22

Кто-то хорошо заработал на этом;)

Даже если не было атаки, а всего лишь рученки влезли куда не надо...

DarkGenius Oct 5 2021 at 09:28

Каким образом заработал?

u007 Oct 5 2021 at 09:35

Акции скинул В 16:49 UTC, например :)

verydrinkingman Oct 5 2021 at 10:15

или купил...)

mi76554 Oct 5 2021 at 10:07

"В 16:58 UTC мы заметили, что Facebook перестал анонсировать маршруты для своих DNS-префиксов" -- вот тут мой мозг сломался. =)) DNS и BGP в одну кучу.
Для тех кто не в курсе, в протоколе BGP есть только апдейты маршрутов соседней автономной зоны. DNS это этажом выше, и никак не пересекаются.

Это такой перевод, или там действительно такие чапаевские птицы?

tyomitch Oct 5 2021 at 10:20

Перевод в порядке. Вероятно, это место следует читать как "В 16:58 UTC мы заметили, что Facebook перестал анонсировать маршруты для префиксов серверов своих DNS-зон."

Calc Oct 11 2021 at 23:03

Ну автономная система анонсирует айпишники в глобальную сеть. Днс сервера у них свои и на своих айпишниках (странно что нет резерва в другой AS). Ну а дальше просто каскад. Нет ИП, нет ДНС, нет КЭША, нет данных

askv Oct 5 2021 at 10:13

Похоже, Цукерберг предал идеалы демократии и завязал все сервисы на себя лично, без резервирования...

-13

johnfound Oct 5 2021 at 10:27

Сегодняшние события служат мягким напоминанием о том, что интернет — это очень сложная и взаимозависимая система из миллионов систем и протоколов, взаимодействующих друг с другом. Доверие, стандартизация и кооперация между задействованными в нём организациями — ключ к его работоспособности для почти пяти миллиардов активных пользователей со всего мира.

...

В 1968 году Министерство обороны США посчитало, что на случай войны Америке нужна надёжная система передачи информации, и предложило разработать для этого компьютерную сеть.

А потом, что-то пошло не так.

+13

tyomitch Oct 5 2021 at 10:40

Да в общем-то всё так: несмотря на отключение куска сети, через который ходила существенная часть мирового трафика — весь остальной интернет продолжал работать.

Сравните это, например, с историей Evergreen весной, когда затор в одной точке поставил раком мировую логистику на пару недель.

+35

Kvakosavrus Oct 5 2021 at 13:39

Тем не менее что-то в архитектуре явно сделано нехорошо.

Это же огромная контора с серверами по всему миру. Так почему он упал весь, а не для какой-то части пользователей?

Построили недостаточно отказоустойчивым.

up40k Oct 5 2021 at 14:38

Есть одна древняя рекомендация - не держать все авторитативные NS в одной IP-сети класса C.

По хорошему, со времён внедрения CIDR она должна звучать как "не держать все авторитативные NS в одной AS".

hiewpoint Oct 5 2021 at 15:56

Для отказоустойчивости надо иметь DNS в разных ASN, которые должны управляться отдельно, т.е. так, чтобы такие проблемы с BGP анонсами не становились глобальными.

1A1A1 Oct 5 2021 at 17:32

Я так неверной строчкой в Ansible продовые сервера положил разом. Кластер, вся фигня, но не спасло от обычной ошибки в конфиге.

mishutka_ua Oct 6 2021 at 02:30

04.10.21 в 16:58 смею предположить?

xeonz Oct 5 2021 at 12:03

>А потом, что-то пошло не так.

А потом все стали переходить от децентрализованной модели изначальной сети к централизованной, где есть выделенные точки управления всей сетью. Руками ходить на каждое отдельное устройство всем надоело, решили разливать изменения всякими модными зумерскими ansible'ами, использовать REST API, NET CONF и прочие централизованные вещи. И вот одно неосторожное движение и вместо единичного отказа лежит уже вся инфраструктура.

booyakacrew Oct 5 2021 at 14:29

netconf и rest api не имеют никакой связи с централизацией. rest api может вызываться/выставляться наружу микросервисами, конфиги по netconf тоже заливаются/принимаются микросервисами.

Руками никто никуда не ходит, потому что рук не хватит в энтерпрайзе и хайлоаде. Для этого используется ETSI NFV MANO. Другое дело, что внешний/внутренний периметр доступа есть в любой системе, хоть централизованной, хоть нет и если положить его весь, то может оказаться сложным удаленно его поднять обратно. Это я вам как ответственный бумер сообщаю.

Другое дело, что "положить его весь" не должно быть доступно одной группе людей, это факт. Проблема, похоже, действительно в централизации, но не архитектуры инфраструктуры, а ролей доступа к настройкам BGP. Возможно также частично проблема, а точнее задержки в её решении, заключаются и в децентрализованности BGP.

Revertis Oct 5 2021 at 16:20

Можно было просто разные подсети анонсить из разных ASN, да ещё и с разных точек и ДЦ. Плюс, иметь DNS-серверы в разных ДЦ, в разных подсетях.

xeonz Oct 6 2021 at 11:32

У них все так и было. Но судя по последнему отчету, они потеряли всю backbone network между дата центрами из за ошибки внесения изменений в конфигурацию роутеров (то самое централизованное управление скорее всего, про которое я писал выше). А их днс настроены так, что если теряют связь с основными сервисами, то убирают анонсы по BGP для своих адресов (считается, что данный ДЦ сломался и не надо роутить на него пользователей). И вот так получилось, что все их ДНСы во всех ДЦ потеряли связь по внутренней Backbone сети с каким то центральными сервисами и отозвали BGP анонсы.

В целом моя мысль подтверждается - виной всему излишняя централизация, которая смывает границы "домена проблемы". Сетевые протоколы всегда строились так, чтобы "домен проблемы" (объем затрагиваемых сервисов и устройств в случае точечного сбоя) был как можно меньше. Но централизованное управление ломает этот принцип и раздувает "домен проблемы" до максимальных значений, вопреки изначальному принципу.

FlashHaos Oct 5 2021 at 11:19

Интересно, как скоро государства захотят себе право авторизации запросов на инфраструктурные работы для критически важных сервисов? Сейчас почти в любой крупной конторе есть какой-либо комитет с большими шишками, которые пускают или не пускают крупные работы и тормозят тем самым процесс. Представил себе в этой роли условный Роскомнадзор - и стало страшно.

UFO just landed and posted this here

Aleksandr-JS-Developer Oct 5 2021 at 17:15

админы, похоже, настолько не верили в столь масштабное падение

Чуваки из Cloudflare тоже первым делом полезли проверять со своей стороны. Правда их сервисы не так просто ребутнуть "на всякий случай".

Кстати, вспомнил, у меня тоже кабельный исчез на пару минут примерно в тоже время, что и лёг фейсбук

Tab10id Oct 5 2021 at 20:55

Тоже самое было, отправил в ребут домашний роутер=)

UFO just landed and posted this here

Krasnoarmeec Oct 5 2021 at 19:14

С 18:30 (по московскому) пропал проводной интернет с диагнозом "DNS lookup error". Перезагрузки роутера не помогали. Закончилась вся эта свистопляска где-то в 22-23 по московскому. Провайдер правда тоже так себе.

Место: ГДР, Дрезден.

hiewpoint Oct 5 2021 at 20:35

Вероятно, DNS серверы провайдера просто легли от массовых запросов от всех FB приложений его клиентов, которые ожесточённо пытались найти дорогу домой.

Sap_ru Oct 6 2021 at 00:24

На сотовых от хуавея новых тоже погас инет,так как телефоны проверяли его наличие пингуя что-то FB. Многие телефоны проверяют наличие инета пингуя 1.1.1.1. Вот если он погаснет...

А он погаснет, так как Роскомнадзор уже мечтает его заблокировать.

hiewpoint Oct 6 2021 at 13:45

Роскомнадзору не обязательно же блокировать пинги до 1.1.1.1, достаточно закрыть доставку tcp пакетов на 443 порт, чтобы перестал работать DoH.

ermak0ff Oct 6 2021 at 15:34

Аналогичная ситуация была на телефоне huawei p30. Мобильный интернет не работал. При попытке подключиться к WiFi телефон писал что сеть якобы без доступа в интернет, хотя с другого телефона от WiFi интернет был. Так что очевидно что проверка наличия интернета как то завязана на сервисах FB.

tuxi Oct 6 2021 at 01:42

Teokar Oct 6 2021 at 04:29

У меня провайдер локальный (довольно крупный) вообще умер на сутки! Ровненько одновременно с падением Фейсбука. По телефону - автоответчик "у нас авария, исправляем". Через час пришла смс "авария на магистральном кабеле". И только сегодня в обед кое-как заработало.

Киев.

debagger Oct 6 2021 at 12:32

У меня тоже лежал провайдер домашний вместе с фб

Екатеринбург

Meklon Oct 6 2021 at 09:31

У меня MTS отрубился на несколько минут тоже.

saaivs Oct 5 2021 at 14:38

В стародавние времена, когда миллениалы ещё не пребывали в эйфории от удалёнки, а зумеры только начали появляться на свет, у бородатых сисадминов уже в ходу была такая примета: "Удалённая настройка сети - это к дальней дороге..." :)

6 часов даунтайма как раз очень похожи на типичный экстренный перелёт :)

+21

Zhurikello Oct 5 2021 at 16:31

Отличная идея! Вполне даже похоже.

johnfound Oct 5 2021 at 14:40

Может быть, я не понимаю, но BGP, это протокол прикладного уровня, поверх TCP. Он служит для динамического обновления маршрутов. Отсутствие BGP пакетов не должно сразу валить всю сеть.

Может быть через некоторое время, когда последние маршрутные таблицы не обновятся и перестанут соответствовать реальной конфигурации сети. Да и тогда, должны упасть только те части сети, которые поменялись.

Или я не понимаю как работает Интернет?

Elsajalee Oct 5 2021 at 14:51

Написано: "маршруты были отозваны" (=удалены) - были сообщения обновления.

YaDr Oct 5 2021 at 16:32

Нет, интернет работает не так.

Нет keepalive = сессия падает по hold time = всё принятое из нее удаляется. Hold time обычно секунд 180.

Как сессии упадут - всем с кем есть BGP разошлются апдейты, те своим пирам разошлют и тд.

Минут 10 - и префиксов фейсбука как бы и не было никогда :-)

johnfound Oct 5 2021 at 17:34

А это всегда так работало? Потому что мне кажется, что коммуникации на нижних уровнях, как-то не должны зависеть от протокол прикладного уровня.

YaDr Oct 5 2021 at 18:07

Я так понимаю, вы сейчай про модель OSI говорите. Она концептуально-условная, служит только для для разделения "слоёв". Никаких реальных зависимостей там нет.

В реальности оказалось удобно обмениваться маршрутами через прокотокол построенный на TCP. Перенос BGP ниже - если, например, накостылять какой-нить MAC-BGP где будут только MAC-адреса в заголовках - смысла не имеет. Что так апдейты пропадут и l3 уйдёт, что так.

mayorovp Oct 5 2021 at 22:56

Они и не зависят в том смысле, что если согласованно остановить демон, который отвечает за BGP, на всех роутерах сети — маршруты сохранятся и сеть продолжит работу.

Но пока этот самый демон активен — он управляет маршрутами, и может эти самые маршруты вовсе удалить. Что и делает при исчезновении партнёра, который эти маршруты передал.

johnfound Oct 6 2021 at 01:38

Ну, так гораздо понятнее. Выходит, что они себе сепуку сделали. Ведь, после падения сети, TCP тоже работать не будет. И восстановить маршруты не получится, так как BGP работает поверх TCP.

-1

tyomitch Oct 6 2021 at 09:06

BGP -- не единственный способ управлять маршрутами. Достаточно задать маршрут вручную, и TCP поднимется. (Что, по-видимому, и было сделано.)

hiewpoint Oct 6 2021 at 13:49

Нет, они именно починили BGP, а не руками загружали на магистральные маршрутизаторы партнёров статические маршруты до своих IP диапазонов.

Balling Oct 6 2021 at 09:13

Вас не смущает, что DHCP тоже происходит до работы сети? Разумеется TCP работать будет. И они всего-то обрушили DNS. Кого-то до сих пор волнует DNS? Есть же facebookcorewwwi.onion и facebookwkhpilnemxj7asaniu7vnjjbiltxjqhye3mhbshg7kx5tfyd.onion

Все нормальные приложения тоже обязаны иметь ip fallback.

mayorovp Oct 6 2021 at 10:13

В нормальной конфигурации BGP не управляет теми маршрутами, через которые сам работает: внешние соединения BGP работают между соседними роутерами, а внутренние работают через сеть, управляемую другими протоколами или тоже статикой.

А вот что и правда у них наверняка отвалилось, это SSH и SNMP.

Calc Oct 11 2021 at 23:07

Вот вы пошли в IANA и купили айпишники. Вам надо сообщить миру о том, что они у вас есть. Тут включается AS + BGP. Вот кто то что то сделал и по таймауту эти связи ушли + спецы не могли достучаться до серверов (через интернет ходят?).
Тут либо надо было находиться внутри сети L2/L3 с наличием IP, либо топать в офис пешком

yushkin Oct 5 2021 at 16:38

Падение BGP для внешних операторов - следствие какой-либо внутренней проблемы внутри ЦОД ФБ.

Такое часто бывает при редистрибьюции full view в IGP. Ложится вся сеть и определение первопричины занимает очень много времени (т.к. тасктрекеры тоже лежат).

Maksmsk Oct 5 2021 at 19:59

При редистрибьюции в igp не пропадут анонсы. С чего бы….

yushkin Oct 5 2021 at 21:19

Правда?

Maksmsk Oct 6 2021 at 10:06

Ну если только BGP роутер узнавал об этой сети из IGP, не имел интерфейсов в этой сети и не было прописано типа ip route x.x.x.x/x null 0. То да сеть пропадёт если роутеры igp отвалятся.

Я бы сделал ставку на «автоматизацию» как писали выше.

yushkin Oct 6 2021 at 13:01

При случайной редистрибьюции full view в IGP (к примеру ospf) железка умирает на пересчете топологии, и все остальные - тоже. Может она, конечно, пристрелит процесс ospf - но это случается не всегда, да и маршруты из IGP перестают поступать - bingo!

Calc Oct 11 2021 at 23:05

Автономная сеть перестала анонсировать себя в глобальной сети, пул айпишников выпал по таймауту.

yesasha Oct 5 2021 at 22:39

У меня подгрузка ленты на фб перестала работать ещё за день до полного падения.

lamer84 Oct 5 2021 at 23:05

У меня дежавю. Такое ощущение, что буквально недавно - не больше года-двух - была статья про сбой в интернете и тоже связанный с BGP. И что-то с настройкой и обновлением роутеров. Не помню, что это было, и найти не могу.

JediPhilosopher Oct 5 2021 at 23:38

Да такое регулярно случается. То по глупости, то по умыслу и глупости (как кто-то там пытался через BGP у себя на территории блочить ютуб, в итоге заблочил его для половины мира). Все следствие того, что все эти протоколы разрабатывались давно, когда веб был уделом профессионалов и работал на доверии, в итоге корневые протоколы не содержат никаких адекватных защит от дураков и хакеров.

DevAdv Oct 6 2021 at 00:49

Год назад сам Cloudflare частично лежал из-за неправильного обновления BGP:
https://blog.cloudflare.com/cloudflare-outage-on-july-17-2020/

lamer84 Oct 7 2021 at 11:34

Точно, это был Cloudflare в прошлом году! Спасибо!

Balling Oct 6 2021 at 09:16

Содержит. См. RPKI.

UFO just landed and posted this here

Maxim_Q Oct 6 2021 at 19:52

Ради инетерса нужно будет через несколько дней посмотреть на рынок акций и цену Facebook.

vvzvlad Oct 10 2021 at 20:00

Путаете стиль(медведи) и инсайдеров

ncr Oct 6 2021 at 01:18

Не хочется уподобляться сторонникам теории заговора, но какое интересное совпадение с определенными событиями.

ermouth Oct 6 2021 at 01:51

Норм, много кто заметил это совпадение, такие мысли современному человеку должны автоматом в голову приходить – как гипотеза. Не обязательно же в неё верить.

Balling Oct 6 2021 at 09:18

Да вряд ли это ради той девки Haugen сделали.

TakashiNord Oct 6 2021 at 07:09

я счастливый человек. Абсл не заметил проблем с Интернетом и сервисами FB.

Машина стояла на качке торрентов. DNS в роутерах прописан Google, Яндекс, и че то еще бесплатное, провайдерское стер от греха. FB - зареган, но не пользуюсь. WA - раз в неделю. Insta ? меня там 3 раза банили. на 4-ый раз голых котиков постить, было как не с руки, на время сбоя.

А так. Когда кто-то мне начинает грить, что Интернет невозможно откл, я тихонько посмеиваюсь, и напоминаю, что погранзона 30 км, а где то и целые районы с областями.