Самый надежный источник бесперебойного питания (ИБП) – шкаф, с одним проходящим насквозь кабелем. Это шуточное утверждение иногда имеет смысл. Особенно в России, где на передний план зачастую выходит человеческий фактор, а ошибку может допустить кто угодно, и инженер, и «бабушка — смотрительница» за ЦОДом. Поэтому количество девяток в коэффициенте доступности далеко не всегда определяет реальную надежность объекта.
Понятно, что система бесперебойного электропитания (СБЭ) должна обеспечивать максимальную надежность электропитания для работы объектов, приложений и сервисов. Однако периодически возникают ситуации, когда сама СБЭ становится причиной сбоя – дополнительной точкой отказа. Это проблема, с которой могут столкнуться многие из вас. Крылатое латинское выражение «Praemonitus praemunitus» («предупрежден — значит вооружен») отражает цель моей статьи. Материал основан на реальных событиях и личном опыте с разных мест работы. Сейчас я работаю в системном интеграторе R-Style, где на деле применяю свои знания и успешно избегаю описанные ниже ситуации. Надеюсь, что статья поможет «вооружиться» и вам. По политическим этическим соображениям подробности об объектах не будут раскрыты. Все совпадения случайны. Аварии и их типы распишу по пунктам с технической стороны.
Справка: Причина самого популярного типа отказов ЦОДов – сбой электропитания (46% всех случаев по данным Ассоциации Информации IT-индустрии США).
Аварии после одного действия
Аварии из-за частых ошибок при эксплуатации, от которых невозможно защититься на этапе проектирования СБЭ.
Такие ситуации связаны с человеческим фактором. Можно выделить два основных типа людей, которые могут обрушить ЦОД:
Пример ошибки первого инженера:
Довольно частая процедура перевода СБЭ на «байпас» может обернуться обесточиванием ответственной нагрузки. Это связано с разницей входного диапазона по напряжению ИБП, для основной линии в среднем ±30% от номинального напряжения, а для «байпасной» ± 10% (это ГОСТ). Получается, что при просадке напряжения ИБП может еще работать от городской сети без перехода на батареи, притом, что байпасная линия уже не доступна. Инженер видит, что питание на входе ИБП есть, но не придает значения сообщению о заблокированном байпасе (чаще всего оповещение о данной ситуации не носит угрожающий характер, например, как при переходе на аккумуляторные батареи) и останавливает инвертор кнопкой, или выходным рубильником, в итоге нагрузка обесточивается. Чтобы избежать подобной ситуации необходимо перед каждым действием анализировать ситуацию, иногда достаточно прочитать предупреждения на дисплее ИБП и понять их.
Пример ошибки второго инженера:
Практически все ИБП имеют два типа тестов батарей: тест автономии до полного разряда (в среднем 1,65 В на ячейку) и временной тест, например, минутный, для оценки кривой разряда, по которой можно судить о состоянии АБ. Инженер на объекте, считая, что тест автономии более правильный, периодически делал его, заносив в журнал все показания. Но однажды сбой внешнего электропитания случился сразу после такого теста, батареи были разряжены, резервирования не было предусмотрено, ДГУ запуститься не успел, нагрузка рухнула. Для оценки АБ в большинстве случаев достаточно автоматических тестов, а тест автономии необходим, например, при вводе в эксплуатацию на балластной нагрузке для подписания актов соответствия. А если все же тест необходим, например, для понимания автономности после замены АБ, то нужно сделать это в специальном окне для регламентных работ и подстраховаться, сразу запустив ДГУ.
Еще случаи, кратко:
— Протирка панели управления ИБП с нечаянным нажатием красной кнопки EPO (Emergency Power Off)
— Сверление перекрытия алмазным буром с подачей воды точно над ИБП с последующим коротким замыканием после сквозной проходки.
— Межфазное замыкание на шинах ИБП при земляных работах с разрывом кабеля ковшом экскаватора при размещении щитового оборудования и ИБП в разных зданиях.
— Включение ИБП при неправильной очередности действий. На некоторых ИБП при запуске с рубильника батарей в начальный момент текут огромные токи заряда конденсаторов постоянного тока, горят предохранители батарей (справедливо только для определенных моделей, есть ИБП, запуск которых должен начинаться строго с включения батарей).
— Очистка от пыли пылесосом при сервисном обслуживании с отрывом элементов на плате. Необходима очистка только за счет выдувания воздуха с безопасного расстояния и приемлемым напором.
— Для коммутации нагруженных линий постоянно использовались рубильники ИБП, что приводило к постоянному искрению в момент переключений и, в итоге, к подгоранию контактов в рубильнике. Для переключений необходимо использовать автоматические выключатели обвязки ИБП в щитах, а не рубильники ИБП, которые не проектируются изготовителем под постоянные коммутации под нагрузкой.
Аварии после цепочки действий
Аварии, вызванные ошибками, которые были сделаны на этапе проектирования и (или) реализации (чаше всего могут оставаться незамеченными), а непосредственно авария происходит после «контрольного выстрела» при эксплуатации.
Примеры аварий, заложенных при проектировании:
— Запроектирован рубильник сервисного байпаса без «сухого» контакта, по сигналу которого ИБП автоматически останавливает инвертор. В этом случае, если инженер ошибочно переводит СБЭ на обводную линию, то инвертор ИБП начинает бороться с Территориальной Генерирующей Компанией. Понятно кто победит. В лучшем случае сгорают выходные предохранители ИБП, в худшем – сгорят сборки IGBT транзисторов инвертора. ЦОД остановился – данные потеряны.
— Был запроектирован дифференциальный автоматический выключатель только в главном распределительном щите (ГРЩ) (ниже по сети дифференциальной защиты не было), питающий помимо системы с особо важными нагрузками через СБЭ, еще важные нагрузки, допускающие кратковременный перебой (питание от ДГУ). В ИБП многих вендоров основные рубильники не рвут нейтральный проводник, однако для ремонтных работ с полным выводом ИБП из работы эта возможность должна присутствовать. Чаще всего в ИБП существует отдельный рубильник для этих целей. Так, при ремонте не отсечённого от цепи нейтрали ИБП нулевой проводник попал на заземленный корпус ИБП, так как в цепи между ИБП и ГРЩ дифференциальной защиты не было, сработал главный вводной автомат, обесточив весь объект.
— При проектировании системы электропитания с СБЭ с большой автономностью не был учтен зарядный ток и КПД ИБП, при этом мощность трансформатора подстанции практически соответствовала нагрузке. В итоге при выходе на расчетную мощность нагрузки произошла перегрузка фидера.
— При проектировании не учтено, что первое время при вводе системы активная нагрузка ЦОД составляет 20% от номинальной. При этом СБЭ и система кондиционирования, подключенные к сети гарантированного электроснабжения СГЭ (при аварии работают от ДГУ) были запущены полностью. При пропадании внешнего электропитания реактивные токи от ИБП не имеющего цепочки предварительного заряда своих внутренних конденсаторов и от систем кондиционирования начинают «обманывать» СГЭ, так как регулирование напряжения у большинства ДГУ осуществляется по току. Начинается понижение или увеличение выходного напряжения, в зависимости от характера реактивной нагрузки (ёмкостная или индуктивная), напряжение выходит за рамки приемлемого для входа ИБП, осуществляется переход на батареи, реактивная составляющая от ИБП перестает действовать на выход ДГУ, напряжение приближается к номинальному, ИБП возвращается на питание от ДГУ, а далее все по кругу. Происходит так называемая раскачка системы, с последующим отказом электропитания после полной разрядки батарей или блокировки выхода ДГУ. Ситуация решается за счет выбора ИБП с возможностью автоматического отключения и включения не задействованных модулей с использованием балластной нагрузки или применения компенсатора реактивных токов.
Примеры аварий, заложенных при поставке и монтаже:
Короткое замыкание с дугой на шинах ИБП, вызванное пролетающим обрывком фольги, которые остались после монтажных работ систем кондиционирования или оторвались с обратной стороны фальш-плитки и летали под фальшполом.
Поставка ИБП и аккумуляторных батарей чересчур заранее:
— ИБП были установлены до окончания малярных работ. Нанятые рабочие красили потолки, стоя на ИБП. Защитная пленка на некоторых аппаратах была повреждена из-за топтания и строительная грязь с обуви сыпалась внутрь ИБП через решетки верхних вентиляторов. При ПНР полностью очистить не удалось, в дальнейшем при эксплуатации было несколько сбоев, скорее всего спровоцированных загрязнением внутренних компонентов.
— Ввод в эксплуатацию СБЭ через 8 месяцев после поставки. Пошли необратимые реакции в батареях из-за длительного хранения без зарядки. Свинцовые пластины покрылись пленкой из крупных кристаллитов сульфата свинца (сульфатация), который препятствует протеканию токообразующих процессов. Сразу после запуска СБЭ произошла авария по батареям (не прошел тест).
Сухой остаток
Пусть это всего лишь малая часть возможных ситуаций, но по опыту описанные случаи имеют тенденции к неоднократному повторению. Надеюсь, что статья поможет заинтересованным лицам избежать аварий, которые могут произойти на объектах как с использованием ИБП, так и без него. Цена ошибки может оказаться очень высокой. Например, ЦОД в результате аварий может простаивать несколько часов, а известны случаи таких «катастроф», при которых объект полностью выходит из строя на двое суток. Аварийная остановка всего ЦОДа на 8 часов для крупной компании может равняться чуть ли не квартальной прибыли, а избежать подобное зачастую позволят всего лишь осторожность, бдительность и внимание к деталям.
UPD: Про бабушек вопрос очень интересный, а еще он касается и простых суровых охранников. До сих пор встречаются серверные, где нет дежурных инженеров. Самое смешное, что дорогие станции мониторинга, интегрированные в инженерное оборудование SNMP адаптеры и датчики, становятся не востребованными, например, ночью. Бывают, конечно, варианты с близко живущим специалистом и системой рассылки аварийных сообщений на почтовый ящик или телефон, но это, мягко говоря, не везде и не всегда. Некоторые заказчики до сих пор просят от поставщиков решения на «сухих» контактах, а весь DCIM сводится к блоку с лампочками, напротив которых прописаны номера телефонов, по которым должна звонить та самая бабушка или охранник. Кстати, по опыту, бабушка выдает больше девяток, чем охранник (это я про коэффициент доступности).
Понятно, что система бесперебойного электропитания (СБЭ) должна обеспечивать максимальную надежность электропитания для работы объектов, приложений и сервисов. Однако периодически возникают ситуации, когда сама СБЭ становится причиной сбоя – дополнительной точкой отказа. Это проблема, с которой могут столкнуться многие из вас. Крылатое латинское выражение «Praemonitus praemunitus» («предупрежден — значит вооружен») отражает цель моей статьи. Материал основан на реальных событиях и личном опыте с разных мест работы. Сейчас я работаю в системном интеграторе R-Style, где на деле применяю свои знания и успешно избегаю описанные ниже ситуации. Надеюсь, что статья поможет «вооружиться» и вам. По политическим этическим соображениям подробности об объектах не будут раскрыты. Все совпадения случайны. Аварии и их типы распишу по пунктам с технической стороны.
Справка: Причина самого популярного типа отказов ЦОДов – сбой электропитания (46% всех случаев по данным Ассоциации Информации IT-индустрии США).
Аварии после одного действия
Аварии из-за частых ошибок при эксплуатации, от которых невозможно защититься на этапе проектирования СБЭ.
Такие ситуации связаны с человеческим фактором. Можно выделить два основных типа людей, которые могут обрушить ЦОД:
- Вполне грамотные инженеры и электрики, но без практики работы на ответственных объектах и необходимых знаний. Могут делать все по указаниям более компетентных коллег по телефону и «дрожащими» руками.
- Опытные электрики, но с выраженным рационализаторским зерном. Это из серии: «один рационализатор хуже двух диверсантов».
Пример ошибки первого инженера:
Довольно частая процедура перевода СБЭ на «байпас» может обернуться обесточиванием ответственной нагрузки. Это связано с разницей входного диапазона по напряжению ИБП, для основной линии в среднем ±30% от номинального напряжения, а для «байпасной» ± 10% (это ГОСТ). Получается, что при просадке напряжения ИБП может еще работать от городской сети без перехода на батареи, притом, что байпасная линия уже не доступна. Инженер видит, что питание на входе ИБП есть, но не придает значения сообщению о заблокированном байпасе (чаще всего оповещение о данной ситуации не носит угрожающий характер, например, как при переходе на аккумуляторные батареи) и останавливает инвертор кнопкой, или выходным рубильником, в итоге нагрузка обесточивается. Чтобы избежать подобной ситуации необходимо перед каждым действием анализировать ситуацию, иногда достаточно прочитать предупреждения на дисплее ИБП и понять их.
Пример ошибки второго инженера:
Практически все ИБП имеют два типа тестов батарей: тест автономии до полного разряда (в среднем 1,65 В на ячейку) и временной тест, например, минутный, для оценки кривой разряда, по которой можно судить о состоянии АБ. Инженер на объекте, считая, что тест автономии более правильный, периодически делал его, заносив в журнал все показания. Но однажды сбой внешнего электропитания случился сразу после такого теста, батареи были разряжены, резервирования не было предусмотрено, ДГУ запуститься не успел, нагрузка рухнула. Для оценки АБ в большинстве случаев достаточно автоматических тестов, а тест автономии необходим, например, при вводе в эксплуатацию на балластной нагрузке для подписания актов соответствия. А если все же тест необходим, например, для понимания автономности после замены АБ, то нужно сделать это в специальном окне для регламентных работ и подстраховаться, сразу запустив ДГУ.
Еще случаи, кратко:
— Протирка панели управления ИБП с нечаянным нажатием красной кнопки EPO (Emergency Power Off)
— Сверление перекрытия алмазным буром с подачей воды точно над ИБП с последующим коротким замыканием после сквозной проходки.
— Межфазное замыкание на шинах ИБП при земляных работах с разрывом кабеля ковшом экскаватора при размещении щитового оборудования и ИБП в разных зданиях.
— Включение ИБП при неправильной очередности действий. На некоторых ИБП при запуске с рубильника батарей в начальный момент текут огромные токи заряда конденсаторов постоянного тока, горят предохранители батарей (справедливо только для определенных моделей, есть ИБП, запуск которых должен начинаться строго с включения батарей).
— Очистка от пыли пылесосом при сервисном обслуживании с отрывом элементов на плате. Необходима очистка только за счет выдувания воздуха с безопасного расстояния и приемлемым напором.
— Для коммутации нагруженных линий постоянно использовались рубильники ИБП, что приводило к постоянному искрению в момент переключений и, в итоге, к подгоранию контактов в рубильнике. Для переключений необходимо использовать автоматические выключатели обвязки ИБП в щитах, а не рубильники ИБП, которые не проектируются изготовителем под постоянные коммутации под нагрузкой.
Аварии после цепочки действий
Аварии, вызванные ошибками, которые были сделаны на этапе проектирования и (или) реализации (чаше всего могут оставаться незамеченными), а непосредственно авария происходит после «контрольного выстрела» при эксплуатации.
Примеры аварий, заложенных при проектировании:
— Запроектирован рубильник сервисного байпаса без «сухого» контакта, по сигналу которого ИБП автоматически останавливает инвертор. В этом случае, если инженер ошибочно переводит СБЭ на обводную линию, то инвертор ИБП начинает бороться с Территориальной Генерирующей Компанией. Понятно кто победит. В лучшем случае сгорают выходные предохранители ИБП, в худшем – сгорят сборки IGBT транзисторов инвертора. ЦОД остановился – данные потеряны.
— Был запроектирован дифференциальный автоматический выключатель только в главном распределительном щите (ГРЩ) (ниже по сети дифференциальной защиты не было), питающий помимо системы с особо важными нагрузками через СБЭ, еще важные нагрузки, допускающие кратковременный перебой (питание от ДГУ). В ИБП многих вендоров основные рубильники не рвут нейтральный проводник, однако для ремонтных работ с полным выводом ИБП из работы эта возможность должна присутствовать. Чаще всего в ИБП существует отдельный рубильник для этих целей. Так, при ремонте не отсечённого от цепи нейтрали ИБП нулевой проводник попал на заземленный корпус ИБП, так как в цепи между ИБП и ГРЩ дифференциальной защиты не было, сработал главный вводной автомат, обесточив весь объект.
— При проектировании системы электропитания с СБЭ с большой автономностью не был учтен зарядный ток и КПД ИБП, при этом мощность трансформатора подстанции практически соответствовала нагрузке. В итоге при выходе на расчетную мощность нагрузки произошла перегрузка фидера.
— При проектировании не учтено, что первое время при вводе системы активная нагрузка ЦОД составляет 20% от номинальной. При этом СБЭ и система кондиционирования, подключенные к сети гарантированного электроснабжения СГЭ (при аварии работают от ДГУ) были запущены полностью. При пропадании внешнего электропитания реактивные токи от ИБП не имеющего цепочки предварительного заряда своих внутренних конденсаторов и от систем кондиционирования начинают «обманывать» СГЭ, так как регулирование напряжения у большинства ДГУ осуществляется по току. Начинается понижение или увеличение выходного напряжения, в зависимости от характера реактивной нагрузки (ёмкостная или индуктивная), напряжение выходит за рамки приемлемого для входа ИБП, осуществляется переход на батареи, реактивная составляющая от ИБП перестает действовать на выход ДГУ, напряжение приближается к номинальному, ИБП возвращается на питание от ДГУ, а далее все по кругу. Происходит так называемая раскачка системы, с последующим отказом электропитания после полной разрядки батарей или блокировки выхода ДГУ. Ситуация решается за счет выбора ИБП с возможностью автоматического отключения и включения не задействованных модулей с использованием балластной нагрузки или применения компенсатора реактивных токов.
Примеры аварий, заложенных при поставке и монтаже:
Короткое замыкание с дугой на шинах ИБП, вызванное пролетающим обрывком фольги, которые остались после монтажных работ систем кондиционирования или оторвались с обратной стороны фальш-плитки и летали под фальшполом.
Поставка ИБП и аккумуляторных батарей чересчур заранее:
— ИБП были установлены до окончания малярных работ. Нанятые рабочие красили потолки, стоя на ИБП. Защитная пленка на некоторых аппаратах была повреждена из-за топтания и строительная грязь с обуви сыпалась внутрь ИБП через решетки верхних вентиляторов. При ПНР полностью очистить не удалось, в дальнейшем при эксплуатации было несколько сбоев, скорее всего спровоцированных загрязнением внутренних компонентов.
— Ввод в эксплуатацию СБЭ через 8 месяцев после поставки. Пошли необратимые реакции в батареях из-за длительного хранения без зарядки. Свинцовые пластины покрылись пленкой из крупных кристаллитов сульфата свинца (сульфатация), который препятствует протеканию токообразующих процессов. Сразу после запуска СБЭ произошла авария по батареям (не прошел тест).
Сухой остаток
Пусть это всего лишь малая часть возможных ситуаций, но по опыту описанные случаи имеют тенденции к неоднократному повторению. Надеюсь, что статья поможет заинтересованным лицам избежать аварий, которые могут произойти на объектах как с использованием ИБП, так и без него. Цена ошибки может оказаться очень высокой. Например, ЦОД в результате аварий может простаивать несколько часов, а известны случаи таких «катастроф», при которых объект полностью выходит из строя на двое суток. Аварийная остановка всего ЦОДа на 8 часов для крупной компании может равняться чуть ли не квартальной прибыли, а избежать подобное зачастую позволят всего лишь осторожность, бдительность и внимание к деталям.
UPD: Про бабушек вопрос очень интересный, а еще он касается и простых суровых охранников. До сих пор встречаются серверные, где нет дежурных инженеров. Самое смешное, что дорогие станции мониторинга, интегрированные в инженерное оборудование SNMP адаптеры и датчики, становятся не востребованными, например, ночью. Бывают, конечно, варианты с близко живущим специалистом и системой рассылки аварийных сообщений на почтовый ящик или телефон, но это, мягко говоря, не везде и не всегда. Некоторые заказчики до сих пор просят от поставщиков решения на «сухих» контактах, а весь DCIM сводится к блоку с лампочками, напротив которых прописаны номера телефонов, по которым должна звонить та самая бабушка или охранник. Кстати, по опыту, бабушка выдает больше девяток, чем охранник (это я про коэффициент доступности).