Pull to refresh

Электропитание ИТ-оборудования: безопасность или бесперебойность? часть 2

Открытые Технологии corporate blog IT Infrastructure *Server optimization *Data storage *
Продолжаем статью, цель которой — поделиться опытом и показать ключевые особенности и частые ошибки возникающие при проектировании и организации подсистем электроснабжения ИТ-инфраструктуры и ЦОД в целом. Но хотелось бы немного расширить аудиторию и посвятить несколько разделов базовым элементам обеспечения электробезопасности и защиты оборудования и людей.

Тем, кто пропустил первую часть или хочет вспомнить первую часть можно пройти сюда.

Для тех кто понимает, что такое автомат и УЗО, для чего они необходимы, что и от чего защищают – переходите к разделу Нужны ли УЗО для IT-оборудования, серверной, ЦОДа?.

Часть вторая


Посмотрим какая взаимосвязь между энергетикой и конечным ИТ-оборудованием, будем разбираться в вопросе- в каких случаях перебоев в сети питания операционная система гарантированно должна работать без сбоев.



Вопросы переключения на резервный источник питания

Электроснабжение информационного оборудования организовывается с резервированием. Рассмотрим организацию электроснабжения в части ЩБП-БРП-БП (щит бесперебойного питания-блок распределения питания- блок питания). Типы резервирования бывают следующих типов:

  1. Резервирование кабелей к стойке, оборудованию, с использованием отдельных блоков распределения питания, БРП (рисунок 1)
  2. Резервирование шин питания в щите электроснабжения, с использованием отдельных блоков распределения питания, БРП (рисунок 2)

Резервирование на уровне блоков питания непосредственно в сервере, коммутаторе, ИТ-устройстве (рис.3)
Резервирование при помощи стоечного переключателя нагрузки, стоечного АВР (СПН, он же ATS) (рис.4)



Для переключения между основным и резервным вводом могут использоваться:

  • в сфере информационных систем: шкафы АВР/STS (Static Transfer Swith) для систем большой мощности, для перехода на питание от резервного ИБП в момент работы полноценной системы 2N или комбинаций систем N+1;
  • в сфере систем электроснабжения различного вида схемы АВР (на контакторах, на контроллерах);
  • на уровне серверной стойки: автоматические быстродействующие стоечные АВР\ATS (Automatic Transfer Switсh);
  • на уровне конкретного информационного оборудование: дублированные блоки питания.

Как мы цитировали выше для IT-оборудования, «перерыв в электроснабжении недопустим». А что скрывается под этой фразой? Что такое «перерыв» в питании информационного оборудования? Сейчас разберемся на живом примере.

Заказчик внедряет локальную серверную вместе с IT-инфраструктурой двух этажей под офис фирмы. На этапе обсуждения системы электропитания у него возникает желание поставить все информационное оборудование с одним блоком питания (БП), а второй слот под БП серверов оставить свободным, и на всю стойку смонтировать единый ATS стоечного исполнения. (рис.4, схема).

Внешний вид тыльной стороны сервера с дублированными блоками питания
Как Заказчик аргументировал свое желание:

  • Экономия средств ($500-800 с каждого устройства в стойке)
  • Можно поставить два простейших БРП и применить их уже для распределения питания после ATS
  • Абсолютно аналогичный уровень надежности системы, по сравнению с классическим способом распределения

Мы взяли тайм-аут, подробно исследовали желание Заказчика с различных точек зрения, надежности сервисов в целом в гарантийный и послегарантийный срок, а также:

  • стоимости (экономии) капитальных затрат при внедрении (CAPEX)
  • стоимости затрат на амортизацию, содержание ЗИП, трудозатрат персонала клиента (OPEX)
  • сравнения алгоритмов работы и времени переключения на резервную линию в обоих вариантах, проверка на «единые точки отказа»
  • уровня рисков зависания и/или перезагрузки операционных систем информационного оборудования, падения информационных сервисов, которые на них работают.

И вот что выяснилось:

Согласно нормативной базе ГОСТ 32144-2013 (Электрическая энергия. Совместимость технических средств электромагнитная. Нормы качества электроэнергии в сетях общего назначения. Дата введения – 1 июля 2014 года), основной причиной сбоев в работе информационного оборудования могут стать провалы напряжения, которые
обычно происходят из-за неисправностей в электрических сетях или в электроустановках потребителей, а также при подключении мощной нагрузки

Читаем дальше:
длительность провалов напряжения может быть до 1 минуты
Эта фраза говорит нам, что информационное оборудование должно обеспечиваться ИБП и/или быстродействующими АВР, так как провалы напряжения подобной длительности являются допустимыми и нормальными с точки зрения большой энергетики, но будут являться фатальными для ИТ-оборудования и сервисов.

К слову, стоит отметить, что в данный момент в действующей нормативной базе РФ имеются противоречия в части измерении величин, относящихся к качеству электроэнергии, подробнее можно почитать в статье технического руководителя направления нашей компании Виктора Чердака (источник digitalsubstation.com)

Некоторые выдержки из статьи

В последние годы государственные стандарты в области измерений параметров электрической энергии, относящихся к КЭ, активно развивались и были неоднократно переработаны

"
Важным изменением стала замена ГОСТ 13109-97 «Электрическая энергия. Совместимость технических средств электромагнитная. Нормы качества электрической энергии в системах электроснабжения общего назначения» [16] на ГОСТ 32144-2013. Данные стандарты определяют различную номенклатуру показателей качества электроэнергии.


А вот насколько быстродействующим? Как определить то время в миллисекундах, за которое сервис (и сервер) заказчика не упадет, а операционная система не уйдет в «critical error»?


Существует стандарт CBEMA (Computer and Business Equipment Manufacturers Association), который после некоторых корректировок ныне известен как «кривые ITIC» (Information Technology Industry Council), а ее варианты включены в стандарты IEEE 446 ANSI. Согласно этим нормативам, электронные схемы блоков питания должны сохранять работоспособность в течение 20 мс (или 0,02 секунды, то есть период).


Те самые кривые ITIC

Согласно требованиям к блокам питания серверных и компьютерных систем Server System Infrastructure можем сказать, что параметр блока питания Tvout_holdup во время провала напряжения питающей сети обеспечивает работу информационного оборудования минимум 21 мсек. То есть, полный период сети – это гарантированное время нормальной работы сервера или коммутатора. Параметр Tpwok_holdup определен минимально 20мсек.

некоторые подробности по параметрам SSI можно посмотреть тут
Справка: Hold-up time (время удержания) — это временной промежуток, в течение которого блок питания может поддерживать выходные напряжения в определенных пределах после пропадания на его входе питающего напряжения. В большинстве компьютерных блоков питания Hold-up time характеризует еще и через какой промежуток времени power good сигнал (PWR_OK) скажет системе, что напряжения, вырабатываемые блоком питания, нестабильны (для компьютерных блоков питания этот параметр обычно более 16 мс).



Вот одна из таблиц из документа



А это диаграмма (time-line) с регламентируемыми алгоритмами работы БП

Теперь посмотрим, какое время переключения заявляет APC, например, для стоечного переключателя нагрузки марки AP7721. Видим, что тут у нас обычно 8-12 мс, но 18 мс – это максимальное время переключения.

Можем сделать вывод, что время переключения на резервный ввод для стоечного переключателя нагрузки соответствует спецификации работы блока питания серверного оборудования. Получается, что сбоев в работе информационного оборудования не будет.

Сводная таблица таймингов элементов системы


А что у нас с экономической составляющей и какой из вариантов более выгоден и отказоустойчив?


Предположим, у нас в стойке имеются три небольших сервера, в которые можно поставить по два блока питания и три устройства с недублированными блоками питания. Все критически важны и отказ любого из устройств выведет в отказ всю систему заказчика в целом. Стоечный переключатель нагрузки нам в любом случае понадобится. Это порядка 18 тыс. рублей.

Заказчик заявляет, что PDU (БРП) им не нужны, значит, в бюджете будет лишь стоимость ATS – те же 18 тыс. рублей. В качестве замены блокам распределения питания (PDU) Заказчик предлагает использовать распределение питания «на борту» стоечного переключателя нагрузки. Также Заказчик планирует купить сервера с двумя слотами под блоки питания, но в комплектации с одним БП ради экономии. (рисунок 4)

Классический вариант (рисунок 3) предполагает комплект из 2-х PDU – около 32 000 рублей, 3 дополнительных блока питания в серверы по $500 каждый за 84 тыс. рублей итого. ATS за те же 18 тыс. рублей. Сложив все, мы понимаем, что классическое решение обойдется Заказчику примерно в 134 тыс. рублей.

Вроде бы действительно, Заказчик прав, деньги совершенно другие. Но давайте посмотрим с точки зрения отказоустойчивости и удобства обслуживания обоих вариантов:
Вариант заказчика: Единая точка отказа – стоечный переключатель нагрузки. Если с ним что-то случится, то мы теряем всю стойку целиком. Значит, надо иметь ЗИП прямо на площадке, что прибавляет к смете 18 000 рублей. Блоки питания в серверах стоят по одному, они тоже являются точками отказа. Значит, желательно иметь хотя бы один, а лучше все три блока питания в резерве на площадке. Примем, что нужны три БП в ЗИП – это еще плюс 36 тыс. рублей. Нужно проверять мощность, которую может коммутировать стоечный ATS. Cейчас мы исходим из того, что 3 кВт или 16А нам хватит на все оборудование стойки. Если нам понадобится ATS на 32А (7кВт), то это будет уже значительно дороже (более 100 тыс. руб). То есть бюджет варианта Заказчика при детальном рассмотрении надежности вырастает до 160 тыс. рублей. При этом в случае ЧП несмотря на то, что запасные части будут на площадке понадобится down-time для замены устройства.
Единая точка отказа (SPOF, Single Point Of Failure) — узел, линия связи или объект системы доступности данных, отказ которого может вывести из строя всю систему, или вызвать недоступность данных
Вариант Открытых Технологий: По рисунку 3, но при необходимости добавляется ATS для мелкого сетевого оборудования с единственным блоком питания.

Точка отказа – тот самый ATS. Если с ним что-то случится, то мы теряем всю стойку целиком. Согласны с тем, что надо иметь ЗИП прямо на площадке. Но в нашем случае, если отказывает только ATS, то это может повлиять лишь на работу коммутаторов и вспомогательного оборудования. Сами серверы спокойно продолжат работу. Блоки питания в ЗИП не нужны. Так как при выходе из строя одного из дублированных блоков питания сервер продолжит работу на оставшемся, и, скорее всего, дождется нового блока питания от вендора, вне зависимости от удаленности площадки.

Интерпретация термина SPOF применительно к ИТ-системам
Единая точка отказа (SPOF, Single Point Of Failure) – узел, устройство или точка схемы, отказ которого может вывести из строя всю систему, вызвать недоступность данных и сервисов. Рассматривается при разработке и проектировании любых критически важных систем. Полное отсутствие единых точек отказа ведет к значительному увеличению капитальных затрат при внедрении, поэтому критичность работы той или иной системы, сервиса определяется на этапе проектирования исходя из бюджета проекта, а также пожеланий и требований Заказчика. Мы всегда находим вариант идеального решения для каждого Заказчика, определяя несколько вариантов реализации проекта, и предлагая их Заказчику. В результате на этапе сдачи проекта заказчик получает именно то решение, которое он хотел видеть по соотношению цена/качество/надежность.

Таким образом, подключать все оборудование стойки на единый ATS можно, но не рационально, так как в этом случае получаем единую точку отказа по питанию. Закупка серверов с дублированными блоками питания предпочтительна в любом случае, так как отказоустойчивость на уровне информационного оборудования увеличивается в разы.

Стоечный переключатель нагрузки обеспечивает корректное и почти мгновенное переключение на резервный ввод, информационное оборудование даже не почувствует этого, программные продукты и операционные системы продолжат корректно работать. Стоечные блоки распределения питания в любом случае нужны и экономить на них не надо. Видимая экономия на капитальных затратах по распределению питания может обернуться нерешаемыми проблемами при эксплуатации, например, необходимости «гасить» всю стойку только для того, чтобы переместить ATS в другой юнит или провести ревизию стоечного переключателя нагрузки. В любом случае для дублированных блоков питания должен быть ЗИП, а он не всегда возможен или имеется.

Внешний вид съемного блока питания сервера:



Применение стоечного АВР имеет свои особенности
Например, мощность такого АВР ограничена, и переключать он может комплекс сравнительно слабых с точки зрения потребляемой мощности нагрузок. Есть вопросы к количеству выходных разъемов питания. Например, вышеупомянутый ATS AP7721 оснащен по входу разъемами типа С14, что означает максимальную мощность переключения 2,5 кВт. На большую мощность нагрузки существует 2U модель AP7724, который по входу комплектуется разъемом на 32 А, то есть максимальная мощность оборудования может быть до 7кВт. А это значит, что типовую стойку с оборудованием можно подключить на этот АВР полностью. Однако цена подобного решения будет более 100 тыс. рублей.

Работа информационного оборудования с двумя блоками питания была хорошо описана в статье Вадима Синицкого @dimskiy . Как видим, есть свои достоинства и недостатки. И наличие резервных блоков питания для информационного оборудования в любом случае необходимо, особенно если объект находится вне зоны быстрой поставки блока питания от вендора. Кроме того, хотим заметить, что онлайн калькуляторы расчета мощности новых серверов от вендоров могут применяться лишь как ориентир для системных администраторов, персонала Заказчика.

Реальные возможности подключения нового мощного сервера к существующей стойке должны оцениваться с учетом изначального проекта электроснабжения, текущего состояния и нагрузки электросети стойки, серверной, ИБП, генератора…. С точки зрения подключения в стойке также стоит учитывать:

  • текущие возможности PDU, типа свободных разъемов в них
  • номиналов автоматов в щитах и сечения и фазность кабельной линии к стойке.

Отдельного внимания заслуживает надежность работы системы электроснабжения серверной, если она построена по системе, изображенной на рис.2 (с двумя системами шин), наличие нового мощного сервера может в случае ремонтных работ привести к перегрузке всей системы электроснабжения, снизить время автономной работы ИБП на батареях, заставить ИБП перейти на байпас по перегрузке и прочее…

А как у вас построена система распределения в стойке?
Каков ресурс БП для ИТ-оборудования и алгоритм их программного резервирования?
Какие вы предпочитаете БРП использовать: базовые, с мониторингом? насколько полезна в практике функция «управляемый БРП/PDU» и помогла ли она вам когда либо?


Автор: Куликов Олег
Ведущий инженер конструктор
Департамент интеграционных решений
«Открытые Технологии»
okulikov@ot.ru
Регистрация в Национальном Реестре Специалистов «НОПРИЗ» П-045870
Only registered users can participate in poll. Log in, please.
Какой тип блока распределения питания (PDU) имеет оптимальный набор функций?
4.76% Basic (базовый, просто набор разъемов) 1
80.95% metered (с функциями измерения, в том числе и удаленный мониторинг) 17
33.33% switched (удаленное отключение отдельных потребителей) 7
21 users voted. 12 users abstained.
Tags:
Hubs:
Total votes 13: ↑12 and ↓1 +11
Views 12K
Comments Comments 21

Information

Founded
1994
Location
Россия
Website
www.ot.ru
Employees
201–500 employees
Registered