denis-19 Oct 5 2021 at 06:00

Facebook объявила причину глобального сбоя

2 min

31K

IT-companiesNetwork hardwareNetwork technologies*

+37

Comments 82

yarigpopov Oct 5 2021 at 06:10

Вот вам и микросервисы

Politura Oct 5 2021 at 06:18

А почему именно микросервисы, а не, например, биткойн, или почечный чай? Они имеют ровно такое-же отношение к оной проблеме у Фейсбука, что и микросервисы.

abutorin Oct 5 2021 at 06:19

Первая версия BGP выпущена в конце прошлого века https://datatracker.ietf.org/doc/html/rfc1105. В те времена про микросервисы еще никто не думал.

Тут скорее нужно сказать "Вот вам и интернет".

uranik Oct 5 2021 at 10:35

Просто у некоторых в .опе свербит, забывают про главное правило программиста - работает не трогай, пока не поломается.

spax555 Oct 5 2021 at 11:55

Т.е. вы до сих пор не понимаете, почему обновляют железо и софт?

UFO landed and left these words here

repeat Oct 5 2021 at 19:26

как правило, это происходит из-за обновления чего-то другого, с чем взаимодействует что-то сломавшееся.

UFO landed and left these words here

andToxa Oct 5 2021 at 06:21

а при чем тут микросервисы?

iaretedd Oct 5 2021 at 06:30

Думается мне, автор комментария имел ввиду зависимость систем безопасности от глобальной сети, но это не точно. Было бы интересно услышать пояснения непосредственно от автора.

yarigpopov Oct 5 2021 at 08:30

Автор комментария наблюдает в индустрии слепую веру в микро-сервисный подход к архитектуре системы. Одним из столпов этой веры автор видит негласное убеждение, что используя микро-сервисный подход вы автоматически получаете лучшую отказоустойчивость. Ведь больше нет большого монстра-монолита, и значит как бы нету single point of failure. Монолиты - плохо. Микросервисы - хорошо.

Автор надеется, что данный инцидент поможет индустрии понять, что использование микросервисной архитектуры для приложения не панацея. И не абсолютное добро, которое надо пихать направо и налево как волшебную таблетку от SPOF.

iaretedd Oct 5 2021 at 08:45

Однако ведь оба подхода можно использовать неправильно. Один человек может написать стабильный, адекватный монолит, но не осилит в микро-сервисы, при этом другой человек отлично спроектирует микро-сервисную архитектуру, но не осилит в монолит. Я даже по себе, порой, замечаю, что порой бывает трудно отстраниться от личных предпочтений и выбрать правильную архитектуру проекта именно на данный момент.
P.S. Все еще интересно услышать ответ автора комментария, хоть это уже и крайне маловероятно. :)
[Update]
P.P.S. Простите, не сразу заметил, что именно Вы и есть автор изначального комментария — предлагаю продолжить дискуссию. :)

ekrokhin Oct 5 2021 at 09:38

Забавно, что автор комментария под обе статьи про падение ФБ написал про микросервисы.

Что в случае монолита, что в случае микросервисов единой точкой отказа является мисконфигурация сети. Также можно предлагать не использовать интернет или электричество, например.

iaretedd Oct 5 2021 at 10:06

Возможно, у chilicoder был какой-то супер-негативный опыт с микросервисами. Я сам не очень люблю слепую веру в то, что «проповедуют», я считаю, что надо относиться ко всему с адеватной долей критичности.

Возвращаясь из абстракции и теорий непосредственно к теме разговора, это, конечно, забавно, но есть вероятность, что автор комментария не получил желаемого отклика на свой первый комментарий и оставил подобный комментарий к статье на ту же тему. Если у нас несколько почти одинаковых статей, смысл удивляться почти одинаковым комментариям?

Вторая часть Вашего комментария, думаю, не нуждается в ответе. :)

yarigpopov Oct 5 2021 at 13:41

Все можно использовать неправильно) Однако в последнее время я вижу, что неправильно используется как раз подход с микро-сервисами. По причине неправильной мотивации. "А что же еще?" "Мы хотим быть как нетфликс, гугл и фейсбук!" "Все используют, мы хотим быть современными"

Сначала дорасти бы до проблем, решаемых микросервисной архитектурой, потому уже их решать.

Могу я поинтересоваться, вы когда последний раз выбирали микросервисную архитектуру, какие были критерии?

andToxa Oct 5 2021 at 17:39

предположу, что низкоуровневые сетевые протоколы точно не входят в список критериев для для выбора в пользу или против микросервисной архитектуры, т.к. они немного про другое. монолит бы прилег при таких проблемах еще быстрее.
поэтому, IMHO, микросервисы в комментариях под данной статьей — это оффтоп.

iaretedd Oct 6 2021 at 00:33

Последний раз заказчик хотел разделить доступы, чтобы отдельно взятый разработчик не видел весь код, но при этом мог без проблем работать над своей частью.
На текущем проекте я задумываюсь о применении микросервисов, потому что это очень неплохой вариант разгрести древнее, неповоротливое легаси.

burzooom Oct 5 2021 at 09:39

Скажите, а эти микросервисы, они сейчас тут, в этой комнате?

UFO landed and left these words here

KGeist Oct 6 2021 at 21:25

Только микросервисы тут совершенно ни при чём. Ошибка произошла из-за кривой конфигурации BGP. Это человеческий фактор. Если до всей сети Фейсбука пропал маршрут -- там хоть монолит, хоть микросервис -- разницы нет, не достучаться.

jogick Oct 5 2021 at 06:16

Не зря, наверное, есть требования пропускную систему и пожарную безопасность делать автономной и изолированной, что бы ни какой компьютерный сбой её не положил.

amarao Oct 5 2021 at 06:36

У них авторизация через фейсбук. /trollface

uranik Oct 5 2021 at 10:39

Наши бы надзорные органы их за это давно на счетчик поставили

NAI Oct 5 2021 at 06:44

Как человек работавший в АСУ ТП, ответственно заявляю - д@#$*!ы есть везде. Я уже перестал считать количество ошибок, объяснять и бить по рукам, чтобы люди смотрели и вели IP-план (хотя бы).

Всегда, стабильно находятся чудаки которые на объекте: "ну а четакова? я попинговал IP вроде никто не отвечает, ткнулся в свободный порт, сервер не увидел, подумал что проблема в vlan и отключил их. Просидел тут сутки, у меня самолет через час, в чем может быть проблема?" А потом оказывается что на этом IP сидел шлюз который раз в час\сутки шлет отчет в систему верхнего уровня, порт был включен потому что другую железку забрали на ремонт, а vlan'ы, цЫтирую "я в этом не понимаю, нафиг оно нужно?!"

spax555 Oct 5 2021 at 11:56

Что за шлюз, который не может на запрос ping ответить?

NAI Oct 5 2021 at 12:03

Любой у которого все лишние сервисы и порты отключены или заблокированы.

spax555 Oct 5 2021 at 14:23

И как же он мониторится тогда? По SNMP?

UFO landed and left these words here

NAI Oct 5 2021 at 15:10

По зеленым индикаторам на морде, сухим контактам (общая авария), profibus\net, МЭК61850, SNMP и для особо упоротых UART воткнутый в PLC. ...но уж точно не через ICMP.

Бонусом шлюз может быть в другой системе, т.е. вне зоны вашей ответственности и туды вас никто и никогда не пустит - максимум дадут протокол передачи данных. Т.е. система регистрации событий может состоять из условного 1 сервера и 100500 шлюзов смотрящих в разные, смежные системы.

Второе, вы, своим нижним\средним уровнем, мониторить верхний не должны. Это как если бы у вас сервера мониторили систему мониторинга (простите за тавтологию). Ну увидят они отвал Zabbix'a дальше то что?

andToxa Oct 5 2021 at 17:41

ответ по ICMP-протоколу никак не гарантирует работоспособность шлюза, так что такой мониторинг — это скорее "мониторинг"

olegmns Oct 5 2021 at 06:18

вспомнились предания про БГП в неумелых руках и редистрибьют fullview, который валит огромные сегменты интернета

Kotofeus Oct 5 2021 at 08:53

От этого давно защищаются в целом относительно успешно, а вот когда случайно принимают фулл-вью на железках которые его прожевать не могут... это бывает)

UFO landed and left these words here

olegmns Oct 5 2021 at 17:42

Спасибо, впечатлений на несколько дней))))

Evgeniy73 Oct 5 2021 at 06:18

«Обожаю» апдейты со сбросом конфига.) А вообще странно что на рабочие железки обновление накатывали. Помню как сотрудник рассказывал как так же софты на магистральных роутерах обновил и роутинги все слетели. Легло все, включая телефонию у части страны. Страшно было всем кто слушал эту душещипательную историю.)

Lirix_vladimir Oct 5 2021 at 06:33

Компетентность сотрудника - я у мамы сисядмин

kini24 Oct 12 2021 at 17:46

Хе. Напомнило мне про "почта не ходит дальше 500 миль". Тоже весь прикол был в обновлении postfix

net_racoon Oct 5 2021 at 06:38

Ой, а че это получается программисты не умеют в сети и оказалось что сетевые инженеры тоже нужны? Кто бы мог подумать...

olegmns Oct 5 2021 at 07:20

Да нужны, нужны. И еще целый ворох разномастных ИТ-специалистов. Ну и электрики, куда без них

UFO landed and left these words here

net_racoon Oct 5 2021 at 10:40

Новость прочитал?

UFO landed and left these words here

MixaSg Oct 5 2021 at 06:42

Зато сетевик, который положил сетку на бочок, наверняка с успехом прошел курсы "как пройти собеседование в FAANG". И вот вам показательный пример, к чему приводит стратегия найма лучших из лучших со стороны работодателя и учение проходить собеседования, а не иметь знания, со стороны сотрудника.

iaretedd Oct 5 2021 at 06:48

Любой человек может допустить ошибку. Иногда ошибки нескольких людей накладываются друг на друга: один человек, запарившись по тем или иным причинам, внес изменения с ошибкой, другой человек, по тем или иным причинам, проверил и не нашел косяков в обновлении с ошибкой, третий человек тоже по каким-то причинам не заметил ошибку. Это случается.
Сколько подобных косяков Вы знаете в рамках одной крупной компании (не обязательно ФБ)? Это очень редкие явления в рамках крупной компании, но они случаются и это банальный человеческий фактор от которого очень трудно избавиться.

ILaeeeee Oct 5 2021 at 07:57

Так вот почему машины пытаются истребить человечество в фантастике: хотят просто избавиться от т.н. "человеческого фактора".

iaretedd Oct 5 2021 at 08:06

Ну давайте обсудим «фантастику». :)
Как Вы думаете, машины не могут допустить ошибку? Тогда почему у нас есть понятие «bit flip»? Почему в космос запускается, в основном, промышленный, а то и «военный» кремний? За исключением недавнего прецедента с Ingenuity. Даже исключив человеческий фактор, нельзя исключать природный фактор.

Goupil Oct 5 2021 at 09:38

У этого явления есть название - Swiss cheese model

https://en.wikipedia.org/wiki/Swiss_cheese_model

iaretedd Oct 5 2021 at 09:46

Ни разу не слышал этого названия, спасибо Вам — я стал немного умнее. :)

MixaSg Oct 5 2021 at 18:24

Оправдания, как дырка в носу, есть у каждого. 6 часов простоя говорят об отсутствии и/или out-of-band управления, отсутствии резерва, плана отката и вообще понимания, что произошло и почему. А скорее всего, сразу лили на прод, как это сейчас модно. Канареечные, елки-палки, релизы.

mayorovp Oct 13 2021 at 00:35

Канареечный релиз работает немного не так, это совсем не синоним "сразу лить на прод".

MixaSg Oct 13 2021 at 05:32

Да, я понимаю. Но мне необходимо словосочетание не из обсценной лексики для обозначения той дикой феерии некомпетентности, что происходит сейчас в сетевой и серверной инфраструктуре. А программирование, как таковое, наверное, больше всех пострадало. Люди, претендующие на звание инженера, способны только на действие уровня "нажать вот эту кнопку и тогда произойдет вот это". А ответить на вопрос "почему?" именно на эту кнопку они не могут. Это уровень техника, а не инженера, средне-специальное образование - знаем "как", но не понимаем "почему".

UFO landed and left these words here

vladkorotnev Oct 6 2021 at 01:00

к чему приводит стратегия найма лучших из лучших

К тому, что таких прилеганий было пару раз за последние 15 лет, а не каждые полгода по паре часов на "перенастройку сервера"?

D03ER Oct 5 2021 at 06:50

Примета есть такая: Удаленно настраивать маршрутизатор - к дальней дороге

Daimos Oct 5 2021 at 14:31

У нас есть запасной план - подключение через сотовую сеть и доступ к консолям маршрутизаторов не через обычные сети

UFO landed and left these words here

Panzer_Ex Oct 5 2021 at 07:19

Интересно, конфиг меняли свои штатные сетевики или же аутсорс из страны слонов и дельта-штамма?

pxx Oct 5 2021 at 07:33

Окей. Но как тогда объяснить параллельные проблемы с сервисами гугла, тиктока, твиттера и прочих?

LoadRunner Oct 5 2021 at 07:44

Пользователи фейсбука ломанулись туда, создав временную нагрузку, к которой часть сервисов оказалась не готова? Телеграм вот тоже немножко напрягся, когда к нему ломанулись вотсапники.

EvgeniyIvanovhabr Oct 5 2021 at 07:59

Проблемы были не только у отдельных социальных сервисов (тут как раз всё просто – люди миллионами кинулись обсуждать упавший Facebook и его сервисы, что серьезно увеличило нагрузку на их инфраструктуру). Сильно упрощённо: значительно и резко выросла нагрузка – приложения FB, Instagram и WhatsApp у сотен миллионов пользователей делают множество повторяющихся запросов, сами пользователи пытаются "достучаться" до неработающих сервисов... Учитывая огромное количество клиентов – это привело к резкому всплеску нагрузки на инфраструктуру и к замедлению работы даже у независимых от Facebook сервисов.

tundrawolf_kiba Oct 5 2021 at 11:27

1) Мессенджеры и соцсети испытали неожиданный прилив траффика, к которому не были готовы
2) Огромное количество сайтов всякими виджетами, лайками и прочим продолжало ломиться в несуществующий на тот момент в сети Фейсбук, DDoSя корневые DNS сервера.

AlexNikiforov Oct 5 2021 at 07:35

Раньше была примета: удаленная настройка файерволла - к дальней дороге.

Потом стало проще, воткнуть ноут в консоль, подключить его к инету через телефон и запустить какой-нибудь тимвьювер сейчас сможет практически любой человек, примета забылась.

И вот фейсбук снова возродил традицию конфигурирования маршрутизаторов прямо из ЦОД.

OptimumOption Oct 5 2021 at 09:08

Умные люди катали скрипт, который правил файрволл, затем уходил в спячку на какое то время, после чего откатывал изменения назад. Успел прибить скрипт - значит, файрволл настроен правильно; не успел - значит, попробуй еще раз.

AlexNikiforov Oct 5 2021 at 11:55

С культурными железками отчасти было проще, ту же асу в крайнем случае можно было просто попросить перезагрузить и получить startup-config. А вот со всякими enterprise class firewall от *-Link происходили страшные и странные вещи. Ну и всякое пожелтевшее от времени древнее зло, натужно пыхтящее в подсобке на большой кадке с землей(10 лет прошло, а кошмары до сих пор снятся) могло дать жару.

Но и с культурным происходило всякое. Отсутствующий или неактуальный startup-config, битый бинарник, бинарник другой версии на одном из коммутаторов в стеке. Поэтому для меня наличие человека с ноутбуком, переходником com-usb, инетом на телефоне и голубым проводком в шаговой доступности от железа - обязательный стандарт при проведении даже самых простых работ.

CherryPah Oct 5 2021 at 14:30

ту же асу в крайнем случае можно было просто попросить перезагрузить и получить startup-config.

Можно было еще reload in сделать. Главное при успешной конфигурации не забыть reload cancel (чертовы флешбэки).

just1986 Oct 5 2021 at 07:35

Удаленное изменение конфигурации на маршрутизаторе — к дороге

pxx Oct 5 2021 at 07:48

Вообще, с трудом представляю тот ужас, который испытали люди, ответственные за этот апдейт. Это вам не стеджинг порушить и даже не прод.
Наташа, мы всё уронили. Вообще всё. (С)

А еще очень любопытно, какими порядками исчисляются убытки от данного факапа.

sn1054 Oct 5 2021 at 08:48

да как всегда неземными. Кто-то чихнул и цукер «потерял» $5млрд на падении акций на пару процентов. К НГ акции поднимутся (ну например, я ни разу не брокер или кто там) и он «заработает» их обратно.
А по итогу дай бог не уволят такого опытного сетевика, как у них сейчас есть. Не каждый имеет в своём багаже факап на n млрд. долларов, обучение такого специалиста весьма непростая и дорогая задача :D

merlin-vrn Oct 5 2021 at 14:18

Админ:
— Мне писать заявление по собственному?

Цукерберг:
— Я только что потратил олимпиард баксов на твоё обучение, будешь тут работать, пока не отработаешь!

oz0ne Oct 5 2021 at 07:53

Отчет от Cloudflare: https://blog.cloudflare.com/october-2021-facebook-outage/

И перевод на Хабре: https://habr.com/ru/company/flant/blog/581560/

Katasonov Oct 5 2021 at 08:01

Черт! А я думал ИИ виновато!

oCeHb Oct 5 2021 at 11:20

Теперь системные архитекторы Facebook узнают что оказывается DNS и внутренние сервисы надо делать отказоустойчивыми и учитывать фактор "а что будет если".

mayorovp Oct 13 2021 at 00:45

Извините, а вы пост читали? Там как раз механизм отказоустойчивости и поломался.

Galperin_Mark Oct 5 2021 at 12:50

perfect_genius Oct 5 2021 at 14:41

Их VR-шлемы тоже не работали?

P.S.: ага, даже это :)

проблема коснулась очков виртуальной реальности Oculus. Пользователи могут использовать уже загруженные игры, но установка новых игр и социальные функции не работают.

Dsp911 Oct 5 2021 at 21:00

Ох уж эти маршрутизаторы)

На моем веку помню несколько крупных факапов у инженеров, когда к примеру, в резервном модуле бгп в циске, память забыли апгрейднуть. С апгрейдом на основном модуле. Что-то пошло не так, переключение на резерв. Память закончилась и заверт.... пока разобрались почему, было уже слишком поздно.

Triger6 Oct 6 2021 at 05:29

Интересно, каким образом система безопасности по доступу к периметру дата центра зависит от маршрутизации?!
На то она и система безопасности, чтобы в случае сбоя в любых других системах, оставаться работоспособной. Странно как-то.

mayorovp Oct 13 2021 at 00:49

Так она и оставалась работоспособной, работоспособно никого не пуская.

А зависит от маршрутизации она очень просто: единая на все дата-центры база данных с допусками. Вполне логичное решение, прекрасно работавшее в доковидную эпоху.

Mike-M Oct 6 2021 at 12:21

Фраза из первоисточника: «we’re working to understand more about what happened today».
То есть компания еще сама до конца не поняла причину сбоя.
Надеюсь, раскопают и обнародуют, чтобы такого никто больше не повторял.

UFO landed and left these words here

netch80 Nov 3 2021 at 10:57

Кросс-линкую с похожей ситуацией этим летом.
Базовая причина по сути та же — неразделение ресурсов управления внешней и внутренней инфраструктуры и отсутствие аварийных средств восстановления.