Как стать автором
Обновить

Что ЦОД упавший нам готовит или эффективные совы всегда на страже

Время на прочтение7 мин
Количество просмотров3.4K

Для лиги лени: события с падениями ЦОД, падениями отдельных сервисов, состоянием «продукта импортозаместительного» не обсуждаются и не видно багтрекера. Каждое новое падение для многих превращается в «ни разу не было и вот опять».

За последние несколько лет в РФ (и в мире) было много случаев падений «ЦОД целиком». На память приходит попавший во все сводки пожар на крыше Даталайна – OST в 2019, и последовавший публичный анализ и разбор полетов. Причем проблемы не всегда идут от ЦОД самого по себе -

2012 - Amazon подвели дизель-генераторы
2020 - Пожар в кабельном колодце привел к возникновению проблем у различных интернет-ресурсов
2021 – пожар в OVHCloud в Страсбурге
2021 Защита от возгораний в дата-центрах, или как обеспечивается сохранность данных 2022 Пожары в дата-центрах. Как выстроить надёжное резервирование?
2022 Пожары, подтопления, вандалы… Как обезвредить? Искусство ЦОДообороны
2023 RuVDS Самый длинный простой за нашу историю: я обещал рассказать про аварию
И так далее.

Сюда НЕ попали аварии, не приведшие к зрелищным пожарам и серьезным последствиям для сервисов – в частности, 2017, Авария в дмитровском ЦОДе «Мегафон»: разбор полета  , и прочие мелкие аварии типа перегревов и задымлений отдельных помещений у отдельных поставщиков. Потому что кондиционеры надо от пуха чистить чаще.

Точно так же в новости не очень попала и авария 30 ноября 2023 - Авария в одной из зон доступности ЦОД Госзнак GZ1.

Что там произошло, кто попал под раздачу кроме VK и андромеды  – публичного анализа я не нашел, быстро поднятое не считается упавшим.

Или же, аварии 22 и 29 декабря 2023 в VK Cloud на тех же GZ1:

22.12.2023
Уведомляем Вас о том, что 22.12.2023 в 13:31 произошел инцидент на одной из дисковых нод, в результате которого мог наблюдаться рост задержек доступа к дискам вплоть до их Временной недоступности в течение нескольких минут.
Доступность дисков была восстановлена 22.12.23 в 13:38
Была инициирована аварийная размиграция дисковой ноды.
В 16:13-16:37 диски снова были недоступны из-за повторной недоступности дисковой ноды. На данный момент размиграция продолжается. Данные на дисках не пострадали.

29.12.2023
Частичная недоступность публичного API СУБД Затронутые объекты: - Базы данных — Москва Восток (GZ1), Москва Север (MS1) Время обнаружения: пт, 29 дек. 2023, 16:22 +03:00

Сюда же не попали аварии, связанные с неправильной работой систем пожаротушения – Август 2010, Подольск – 13 пострадавших, 1 погиб, Бангкок 2016, 8 погибших.

Сюда же не попали аварии, связанные с ошибками проектирования – 18.12.2021 МВД: глобальный сбой в федеральной информационной системе ГИБДД произошел из-за коммунальной аварии в серверной.

Что уж говорить про анализ сбоев и миграции меньших масштабов – что сбой при миграции и объединении баз МВД, что сбой 2016 года в налоговой, что сбой 2019 в налоговой, , сбой 2022 в налоговой, сбой в ГИБДД- 10.2023 , повторный сбой в ГИБДД 12-2023. Точно так же никого особо не взволновали сбои в ОСАГО - что в 2015 году в РСА (российский союз автостраховщиков), что в 2020 - Новая версия АИС ОСАГО собрала рекордное количество жалоб. Не были озвучены ни процессы, ни процедуры, приведшие к до сих пор заметаемой проблеме, случившейся и длившейся в Росреестре с 1016 по 2019 - За три года электронная база Росреестра зависала на длительные сроки уже четыре раза, но НИКТО НЕ ВИНОВАТ –

Оказалось, что Росреестр не несет за сбои никакой ответственности, так как причиной неполадок стали технические неполадки в системе, не зависящие от человеческого фактора.

Новости про Leonardo ничуть не лучше – упало, но починили, все.

Точно так же я не вижу анализа и вообще упоминания о сбое в метро 01 февраля 2024 - В Москве произошел сбой с оплатой картами в метро и автобусах.

Не было в новостях, значит не считается?

Незаметное давление
Проблема поддержки существующих систем (аппаратных и программных) в условиях прекращения официальных поставок от всех вендоров 1-2 эшелона, обсуждалась давно. Меры борьбы тоже были известны – 1) создавать локальный ЗИП, 2) повышать локальную экспертизу хотя бы в ведущих интеграторах, 3) переходить на "свои" программно-определяемые системы там, где это возможно – отвязываясь от вендоров 1 эшелона, 4) проводить активный обмен опытом, в открытом формате предоставления информации о доступности \ работоспособности и компонентов (в виде базы данных производитель \ редакция аппаратной части \ прошивка \ прочее), или в виде информации о доступности перехода на другие решения. Или, хотя бы в виде таблицы «что НЕ заработало и какие были проблемы».

Что вместо этого? НИКОЛАЙ ИННА ХАРИТОН, НИЧЕГО. В публичном поле информация «куда можно сходить за повышением экспертизы» - отсутствует. «Свои» интеграторы из топ-10, разумеется, делиться информацией не обязаны, и от них это не требуется. Малый и средний бизнес (SMB) в регионах, где экспертиза давно уехала за лучшей жизнью в Москву и Санкт-Петербург, пока живет «как есть», срок наработки на отказ у современной техники от 3 до 5 лет, массовые отказы компонентов начинаются через 5-7 лет, дальше сами посчитаете.
Стоит ли говорить очевидное, что в условиях сокращения поставок (числа вендоров) сетевого оборудования сложнее калькулятора – о чем еще можно было писать в 2022 - Протрезвели — прослезились, или на чём строить сети летом 2022 года - строить сети стало сложнее ? Особенно с учетом, что статей про прекрасное светлое сетевое будущее за 2023 год - что? нет? 

Стоит ли упоминать о том, что победные релизы из 2022 «Ростех» начал серийное производство защищённых роутеров на процессорах «Байкал» свелись в 2023 к KVM - Представленный в 2022 году на ЦИПР первый российский KVM‑коммутатор запущен в серийное производство.
Кстати, была серия победных статей про то, как РЖД успешно переходит на Эльбрусы, например - РЖД закупают 15 тысяч ПК на «Эльбрусах» с российской ОС за 1 млрд рублей и ФАС запретила РЖД покупать 15 тысяч «Эльбрусов» за 1 млрд рублей - и куда теперь будет обратно переходить ГИБДД и РЖД ?

И архаизация всей страны
Все происходящее, вместе с цензурой на «плохие новости», заставляет вспомнить поздний СССР. Когда в одном маленьком городе третий день выгорала уран-графитовая смесь (хотя графит в обычных условиях не горит), а в новостях от 29 апреля 1986 года было 6 строк - От Совета Министров СССР. На Чернобыльской атомной электростанции произошла авария. Поврежден один из атомных реакторов. Принимаются меры для ликвидации последствий аварии. Пострадавшим оказывается помощь. Создана правительственная комиссия. Причем, о проблемах и о том, что так будет, рано или поздно, знали – со времен аварии 30 ноября 1975 на ЛАЭС.

Выводы
Современная, построенная в 2000-2020 годах инфраструктура представляет собой сложнейший комплекс технологических (электропитание, кондиционирование, СКУД, сети связи), аппаратных (серверы, коммутаторы, аппаратура WDM\DWDM) и программных средств. Вот только, боюсь, о том что в каком – то уездном городе N отказала система управления светофоров, потому что СХД «одного вендора» работала сколько могла, пока не кончились батареи кеша, не вышли из строя три из четырех блоков питания, в условиях давнего отказа второго контроллера, потери всей емкости для ребилда DRAID, а добил ее отказ «казалось что нового и совместимого, но, как оказалось, нет» диска на очередном ребилде – мы не узнаем даже из новостей. В этом, (censored) информационном космосе, твой крик никто не услышит.

И все это на фоне эффективных сов, которые не будут поднимать шум

Зачем вся песня писалась. Я зачем-то решил ознакомиться с тем, как импортозаместительные системы работают с СХД, и вообще с дисковой подсистемой.
Репортаж с места событий

Но, есть вещи хуже. Например - импортозамещение Teams.

Так что, TOVARISH – если ты дочитал до сюда, и у тебя BOMBIT - то ты не одинок в вопросе без ответа «куда бежать и где экспертиза, и кто гарантирует, что ВОТ ЭТО вообще запустится». Даже если консервы и говорят в комментариях про то, что у бреста презентация хорошая, красивая, и они сто раз так делали – верить этому не следует.

Следствие или какая связь то с ЦОД ?
Все просто, у меня часть сервисов в ЦОД, часть в облаках. И не зная, что на самом деле гарантирует (или, скорее не гарантирует ни ЦОД, ни облако) – можно столкнуться с неприятностями. И чем дальше, тем вопрос ближе к варианту "когда".

Я думал, что для пилота и начала перехода потребуется новая инфраструктура в треть имеющейся. Сейчас понимаю, что в пилоте потребуется выбор и дисковых решений (их нет, потому что ни у одного из российских решений нет рабочего метрокластера), и, одновременно, построение системы непрерывной проверки восстановимости и целостности резервных копий. Потому что Акронис, как его теперь не называй, Acronis Cyber Backup (Advanced) или Киберпротект Кибер бекап – у меня столько крови испортил, что я его просто боюсь.

Придется описывать требования по фактически используемому функционалу Commvault. Включая даже очевидное – процедуру восстановления и переноса лицензий. И затем на этот функционал добавлять какой-то конвейер по параллельному (кроме бекапа) копированию баз данных куда-то на некий момент времени, развертыванию их тестовый сервер, туда же заводить автоматическое восстановление базы из «заменяемой» СРК и писать функционал сравнения, что в базе нужные поля в нужных данных, и приложение может работать с восстановленной базой.

Потом еще и прописывать программу и методику испытаний и проводить эти самые приемо сдаточные испытания.

И что-то мне совсем не нравится предстоящий набор работ. Придется расширять (точнее, делать с ноля) QA в сегмент бекапа, писать тесты. К тому же еще и под 1С, местами.

Повторюсь
Хуже всего в текущей ситуации в целом не то, что есть некие проблемы, они всегда были. Хуже то, что некого спросить про накопленный опыт – кто по каким граблям успешно прыгал и какие проблемы были решены. Нет публичного пилота (ни у кого), чтобы было на что посмотреть и сравнить.

И, может, хуже даже не это, а то что эффективным совам проще завести десяток учеток для тушканчиков «без статей, только для комментариев», чтобы они минусовали неприятное, и писали «да вы наверное тупой, у меня то все работает». Имея при этом ноль статей и два одинаковых комментария в месяц, что у них то , инфа сотка, все работает.
Хабр, конечно, не жалобная книга, но от подхода "давайте делать вид что все хорошо" уже бомбит у меня.

P.S. Это тоже было, но не в Симпсонах
— А как работалось при Брежневе?
— Ой, плохо. Стыдно вспоминать. Передовицы к тому времени окончательно в дерьмо превратились… Какой там внутренний свет — даже понять трудно было, о чем пишут. Но я плохие оценки ставить уже боялась, потому что другое время было на дворе. Ставила обычно «восемь» или «девять», а мне в обмен зарплату и паек. Все всё понимали, вопросов не было. (Пелевин, Искусство лёгких касаний)

P.S. Пост в чулане, так что рейтинг в зачет не идет.

Теги:
Хабы:
Всего голосов 12: ↑7 и ↓5+5
Комментарии7

Публикации

Истории

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань