Любое отключение питания в стойке — это инцидент, который инженер дата-центра должен решить в минимальные сроки. Чаще всего критически важное оборудование в ЦОДе запитано от двух лучей, и после сбоя одного луча устройства нормально работают от второго. Но бывают банальные ошибки подключения и нестандартные случаи, из-за которых "падает" вся стойка.
Каждый сбой в питании мы фиксируем в системных журналах и отчетах смены и затем анализируем причины падений. За годы у нас накопилась статистика удивительных, а иногда просто глупых ситуаций падения стойки. Заодно мы собрали несколько таких историй от коллег в нашем чате Салатовой телеги.
Сегодня расскажем, как учесть этот опыт и снизить вероятность "падения" серверной стойки.