Search
Write a publication
Pull to refresh
30
0
Андрей Годин @AndreyGodin

User

Send message

Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре

Level of difficultyMedium
Reading time13 min
Views47K

30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования.

В этой статье подробно покажем, какие именно риски сработали — а для этого объясним, как устроено энергоснабжение в дата‑центре и на что это влияет. С этой точки зрения посмотрим, как развивались события в этот день и что бывает в дата‑центре, когда случаются ситуации, вероятность которых оценивается как «один на десятилетия». В завершение расскажем, что планируем делать дальше, чтобы не допустить повторения, и какой урок из этого могут извлечь другие инженеры.

Читать далее

Information

Rating
Does not participate
Works in
Registered
Activity

Specialization

Chief Technology Officer (CTO), Site Reliability Engineer (SRE)
Lead
Git
Python
Linux
Project management
People management
Budgeting projects
Automation of processes
Development management
Negotiation
Company management