Обновить
30
0
Андрей Годин@AndreyGodin

Пользователь

Отправить сообщение

Сбой с вероятностью один раз в 20 лет: о мартовском инциденте в дата-центре

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели32K

30 марта сервисы, размещённые в одном из наших основных дата‑центров, оказались недоступны. К инциденту привела авария на опорной подстанции, которая спровоцировала отказ сразу двух вводов питания и последующий каскадный сбой оборудования.

В этой статье подробно покажем, какие именно риски сработали — а для этого объясним, как устроено энергоснабжение в дата‑центре и на что это влияет. С этой точки зрения посмотрим, как развивались события в этот день и что бывает в дата‑центре, когда случаются ситуации, вероятность которых оценивается как «один на десятилетия». В завершение расскажем, что планируем делать дальше, чтобы не допустить повторения, и какой урок из этого могут извлечь другие инженеры.

Читать далее

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность

Специализация

Технический директор, Инженер по доступности сервисов
Ведущий
Git
Python
Linux
Управление проектами
Управление людьми
Бюджетирование проектов
Автоматизация процессов
Управление разработкой
Ведение переговоров
Управление компанией