@Pas Jul 4 2019 at 13:36

Habr postmortem report: на газетку упало

3 min

19K

Habr corporate blogNetwork technologies * System administration *

+91

Comments 30

UFO landed and left these words here

@Pas Jul 4 2019 at 15:52

Хабр тоже долго жил в виде кэшей nginx. Лайфхак: потереть сессионные куки.

UFO landed and left these words here

@Sleuthhound Jul 4 2019 at 18:15

Либо у вас неторопливые инженеры, либо банальная экономия на резервировании оборудованиях сыграла с вами злую шутку.

@Pas Jul 5 2019 at 11:07

Несколько итераций легаси схем накопилось в сети, наслоение которых не даёт делать чёткое, понятное и надёжное резервирование. Большую часть распутали, осталось совсем немного до простой и понятной схемы.

@LoadRunner Jul 4 2019 at 18:18

На КДПВ подорожник не той стороной приложен. Надо было сразу правильно прикладывать — проблем бы не было.

@mapron Jul 4 2019 at 22:49

Вообще без разницы какой стороной его прикладывать, главное пожамкать чтобы сок давал.

@alexandrtovmach Jul 4 2019 at 18:53

Спасибо за прояснение ситуации. Фиг я ещё когда-нибудь возьмусь за это неблагодарное дело по освещению деталей произошедшего вместо официального представителя.

@nexus478 Jul 5 2019 at 08:33

Фиг я ещё когда-нибудь возьмусь за это неблагодарное дело по освещению деталей произошедшего

А я вот хотел поблагодарить за чудесную детализированную статью, потому что в тот вечер реально было трудно понять, что происходит в этой запутанной ситуации.

Но потом увидел вот это, и все стало на свои места

Так здорово, что есть такие статьи, в которых можно узнать нечто новое, да еще и с деталями. А на минусы не обращайте внимания, это все хейтеры.

@Revertis Jul 4 2019 at 20:29

03.07.2019, 17:27
Восстановлена ограниченная работоспособность Хабра.

А вот этот пункт совсем непонятен. Какую педаль нажали? Куда рулили?

@Pas Jul 5 2019 at 11:11

Восстановление основной работоспособности и связности с основными ресурсами, при этом часть дополнительного функционала, связанного с недоступными ресурсами была отключена.

@uvelichitel Jul 5 2019 at 03:23

del

@perlestius Jul 5 2019 at 03:51

однако часть сервисов оказалась неработоспособной, так как был нарушен механизм разрешения имён на name-серверах (dns).

Прям картинка с деревянным бегемотом вспомнилась.

@achekalin Jul 5 2019 at 07:19

Собственно, есть же правило: если при любой настройке серверов используются хостнеймы, а не ip-адреса, то обязательно нужно сделать, то, что было сделано в процессе восстановления:

наполнять hosts-файлы записями критически важных сервисов.

Hosts автоматически обновлять на всех хостах достаточно просто, зато лишним такая мера не будет.

Но, да, использовать IP-адреса и отключить в настройках сервиса ресолвинг имен — и надежнее, и «дешевле» для приложения, не будет затраты времени на любой ресолвинг.

@kakvampredlojenie Jul 5 2019 at 08:52

Всё отлично, только про учения не понял. Или это юмор?

UFO landed and left these words here

@Pas Jul 6 2019 at 13:19

Вполне себе отработка кейса, когда по чьей-то воле вдруг теряется связность с частью используемых api и иных ресурсов. Или ломается в том или ином виде часть DNS (или DNSSSec для всей .com-зоны).

@0HenrY0 Jul 5 2019 at 08:52

есть над чем подумать с точки зрения усиления возможностей автономного выживания

Dual stack с IPv6 пригодился бы. У моего провайдера пару недель назад были похожие по симптомам проблемы (не работал NAT или другая проблема с IP маршрутизацией). Зато ресурсы с IPv6 были доступны.

@Pas Jul 5 2019 at 11:12

IPv6 активно пилим.

@maxx_s Jul 5 2019 at 20:03

Тоже за Куратора будете "прятать"?

@Pas Jul 6 2019 at 13:15

У нас отделена сеть автономной системы от сети публичных сервисов. Это вообще два не взаимосвязанных сегмента. IPv6 на публичных сервисах появится тогда, когда появится у Qrator, на backbone у нас уже есть IPv6.

@gasizdat Jul 5 2019 at 09:13

То что иконки отъехали примерно в это же время в мобильном FF, может быть как-то связано?

@Evengard Jul 5 2019 at 09:48

Они, кстати, до сих пор не пашут.

UFO landed and left these words here

@maxx_s Jul 5 2019 at 11:12

Проблема несколько усугубилась тем, что данное оборудование также терминировало входящие подключения клиентских VPN сотрудников, удалённые работы по восстановлению стало проводить сложнее.

Интересно! А сколько из прочитавших этот абзац осознали, что и у них VPN и NAT повязаны, я уж молчу про тех кто «ходит» по железкам из дома через рабочий ПК.

Теперь ждём статью по следам этого postmortem о том как вы разнесли NAT на разное оборудование, с резервированием и/или распределением нагрузки. Плюсы, минусы, подводные камни…

@Pas Jul 5 2019 at 11:14

Мы сейчас разворачиваем технически отделённую oob-сеть. С ipsec и bgp через lte-модемы. Скорее всего будет пост.

@Night_Snake Jul 5 2019 at 12:07

Извините, но сетевиков ваших (если они у вас есть) гнать нужно ссаными тряпками за такое.
И за то, что служебный VPN сидит рядом с продуктивом (вероятно на ASA), и за NAT (ЗАЧЕМ?!), и за то, что нет резервирования…

@Pas Jul 5 2019 at 17:33

Если всех гнать ссаными тряпками — тряпок не хватит. Или тех, кого ими гнать. Как бы то ни было, не самое конструктивное решение. Сказываются затянувшиеся переделки опорной сети, на одном из этапов которых "временно" VPN сел на ASA (а не за неё). Но нет ничего более постоянного, чем временное, это уже недогляд и неправильная приоритезация задач.

@Night_Snake Jul 6 2019 at 14:32

Не, сам VPN на ASA — это норм. Anyconnect — очень удобная и гибкая штука.
Тут дело в другом — как вообще можно совмещать на одном железе oob и продуктив?! Даже временно. Как можно не резервировать критичные компоненты? Переезд переездом, но это не повод снижать надёжность системы.

@ierogliph Jul 7 2019 at 20:26

Не хватает полноценного хаба с постмортемами, спасибо, полезная информация.