Как стать автором
Обновить

Как сервер работает с отверткой в блоке питания

Время на прочтение7 мин
Количество просмотров35K
Всего голосов 24: ↑23 и ↓1+22
Комментарии21

Комментарии 21

Что тут сказать — питание — это не то, на чём следует экономить.
Вирус для БП… М-м-м…
на супермикро заметили странное поведение — при выходе из строя (на самом деле просто кабель питания вывалился) одного из блоков — сильно проседает производительность системы. Восстанавливается если вернуть питание или если полностью достать обесточенный блок. на hp так же?
На HP такого не замечали, а вот на IBM (особенно m3-поколение) на некоторых моделях при отключении второго БП отваливается оперативная память :)
Я тут поспрашивал – говорят, у супермикро такое поведение описано в faq, правда для блейдов. Это как раз замедляется производительность системы, так как блок питания помечается как failed, даже если просто вытащить кабель. Такое поведение можно отключить каким-то джампером. Вот одна из ссылок на тему:
http://www.supermicro.com/support/faqs/faq.cfm?faq=23485
зашел, чтобы прочитать ответ на вопрос из заголовка статьи — но так его и не увидел
У нас в компании сервера HP работают с несколькими блоками питания. Нагрузка не сильно большая и в принципе с небольшим запасом потянул бы 1 блок питания. По этой причине, ваше утверждение «Вероятность выхода из строя одного блока питания из группы все же выше, чем сбой единственного – банальная теория вероятности.» считаю неверным. Банально из-за того, что нагрузка практически в 2 раза ниже в случае двух блоков питания. Поэтому вероятность (субъективное мнение, не подкреплённая статистическими данными) выхода из строя блока питания в конфигурации из 2-х блоков питания ниже, нежели в конфигурации с 1 блоком питания.
Я с Вами полностью согласен, но вот как я для себя оправдал это заявление автора: 2 блока будут работать безусловно дольше одного, т.к. нагрузка меньше. Но при выходе из строя одного из блоков, выросшая нагрузка на второй может убить его с очень высокой вероятностью. В итоге — 2 трупа и никакой отказоустойчивости. Это лишь редкие случаи из практики, но подобный «эффект домино» гораздо чаще встречается в RAID-массивах на шпинделях, и особенно на дисках из одной партии. Замена вышедшего из строя диска запускает ребилд, который добавившись к основной нагрузке, может добить полудохлые винты массива.
По этой причине, ваше утверждение «Вероятность выхода из строя одного блока питания из группы все же выше, чем сбой единственного – банальная теория вероятности.» считаю неверным.

Ознакомтесь пожалуйста с основами расчета надежности технических систем.
вы можете что угодно бездоказательно говорить. но я знаю, что если устройство нагружено на 90% своих возможностей, то оно скорее всего проработает гораздо меньшее время, чем то-же устройство нагруженное на 45%.
Говоря абстрактное «технических систем», могу в свою защиту привести банальный пример из мира автомобилестроения. Представьте, что вы каждый день крутите двигатель почти в отсечку (это и есть 90% от его возможности). Долго ли прослужит в таком режиме двигатель?
Я этот пример взял лишь для того, чтобы показать, что время работы устройства в зависимости от нагрузки имеет нелинейную зависимость.
Есть штатный режим эксплуатации. Автомобиль предназначен для того, чтобы его крутили — главное не превышать отсечку и сделать режим стабильным. Согласитесь, что двигатель после 100000км по трассе будет в разы в лучшем состоянии, чем после 100000км по городу. Также есть такое понятие как «крейсерская скорость», при которой двигатель выдает максимальную эффективность в соотношении износ/расход.
Я не предлагаю нагружать БП под 100%. 80% в пике нагрузки — это нормальный режим работы блока питания.
А когда блок питания выделяет тепла больше чем вся система, которую он питает — это не рациональное решение.

Применительно к БП не удивлюсь, если нагруженный на 40% будет иметь в сотни тысяч раз большую надёжность, чем нагруженный на 80-100%... Ныне эра говноделия, в которой 100% предел, а не рабочий режим.

Вообще КПД блоков питания растет с уменьшением нагрузки, почему у вас два греются больше чем один неведомо.... Должны меньше, и быть более эффективными...

лет 10 назад столкнулся с глюками по питанию
привезли новые серваки IBM — такого же класса
схема питания как в статье описано
серваки проинсталлили, почти в работу запустили
не помню как, то ли случайно на стенде, то ли решил проверить как они будут отрабатывать пропадание питания
так вот — при отключении питания на одном из БП сервер продолжал работать, а при появлении — уходил в перегруз
решилось заменой БП по гарантии, прошивку там поменять было вроде бы самому нельзя…
1. Не согласен со сравнением балансировки нагрузки с RAID0. RAID0 не имеет никакой отказоустойчивости, а при балансировке нагрузки на БП отказоустойчивость как раз как у RAID1 — при выходе из строя одного из БП, второй берет на себя всю нагрузку. Причем указанная мощность никогда не суммируется, а считается как мощность одного модуля. В схемах 2+1 общая мощность равна сумме двух блоков, но работают все три равномерно нагруженно, и выход из строя одного из модулей не приведет к снижению суммарной мощности БП.

2. Еще один немаловажный плюс использования БП с возможностью горячей замены — это отсутствие необходимости разбирать сервер и, как следствие, собирать назад, укладывая заново проводку, чтобы она не перекрывала воздушные потоки системы охлаждения. Эта задача может стать нетривиальной для большой части обслуживающего персонала. А вынуть/вставить модуль — это несложно и удобно. Power distributor — да, узкое место — но, как Вы писали — БП имеет гораздо большую вероятность выхода из строя.

3. И еще один момент при выборе мощности. Многие считают, что чем больше — тем лучше. Это расточительно. КПД многих БП довольно велико, но в любом случае, если взять БП мощней в 4 раза чем надо, то энергопотери и тепловыделение от 2 блоков могут превысить потребление всей полезной системы. Есть прецеденты установки 2х920Вт в однопроцессорную систему с SSD общим полезным потреблением не более 130Вт. БП при этом сам сжирал более 300Вт. Не очень эффективное использование.
БП надо подбирать из расчета загрузки его на 80% в пике.
Мы столкнулись с тем, что просто купить в ЗИП бп для серверов Dell — задача не тривиальная. Наш поставщик очень с трудом это делает и после долгого пинания, как-то связано с тем, что это делается не через дистрибуцию делл, а через сервис.
А параллельно вам не предлагают купить сервисный контракт Dell? Один из моих давних поставщиков пробовал нечто подобное, у них там разнарядка сверху была – пропихивать контракты и отговаривать покупать одни лишь запчасти. Правда, вендор другой был.
У нас поддержка NBD на все серверное оборудование. Просто если у меня есть ЗИП, то когда у меня умирает бп, я не жду инженера сутки, а сам его меняю за 5 минут на запасной с полки, после чего мёртвый меняю на живой через сервис. С хардами причем таких проблем нет, харды в ЗИП покупаются в комплекте с серверами легко.
Тоже слышал про дефицит запчастей у Dell, а про partsale@ru.ibm.com и вовсе слагают легенды.
Вот HP есть в свободной продаже занедорого, но даже с ними можно пролететь на какой-нибудь мелочи.
На сколько я знаю, там не дефицит, они просто очень трудно именно «продаются» по какой-то причине. Мол поставка запчастей только через серверные каналы.
Именно по наличию з/п — нам пару раз меняли материнки в серверах, блок питания, харды, батареи рейд контроллера по звонку в супорт реально на следующий день.
Долго было буквально пару раз на старых десктопах, на которые почему-то была продлённая гарантия, там приходилось что-то заказывать и ждать.
Стоит добавить, что обновление прошивки БП у Dell занимает до 20 минут в течении которых сервер не подаёт признаков жизни и трогать его нельзя.
мне одному Stuxnet вспомнился?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий