Amazon подвели дизель-генераторы



    Компания Amazon объяснила причины обесточивания дата-центра в регионе East-1 в Северной Виргинии, в результате чего 30 июня в офлайн ушли Instagram, Netflix, Pinterest и другие сайты.

    Причиной названа некорректная работа дизель-генераторов, точнее, распредилительного щитка (switchboard), который должен был переключить систему с одного канала на другой. После скачка напряжения «генераторы запустились нормально», но если один из дата-центров East-1 запитался от генераторов без инцидентов, то во втором дата-центре «каждый генератор в отдельности не смог обеспечить стабильное напряжение после их запуска», объясняет Amazon. В результате, сеть автоматически не перешла на питание от генераторов, и в UPS’ах вскоре кончился заряд.

    Дизель-генераторы были установлены в дата-центре в конце 2010-го и начале 2011 года, до установки они были протестированы производителем. После установки в дата-центр их снова прогнали через восьмичасовые тесты, всё работало нормально. 12 мая эти дизель-генераторы опять же тестировали в полевых условиях, когда базовое энергоснабжение дата-центра полностью отключали, тоже всё было нормально.

    Теперь генераторы пройдут ремонт и повторную сертификацию производителем, либо их заменят на другие. Компания Amazon обещает приложить все усилия, чтобы подобная ситуация не повторилась в будущем: будет увеличено окно времени, которое даётся дизель-генераторам на набор мощности для достижения стабильного напряжения, прежде чем автоматические системы решат, переключаться на питание от генератора или нет. Кроме того, в дата-центрах будет увеличен штат инженерного персонала, чтобы при отключении электричества они в случае необходимости могли вручную запустить генератор и переключить систему на питание от него, так что UPS'ы не смогут разрядиться и клиенты дата-центра не пострадают.

    via Wired
    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 47

      0
      На дизель надейся, а сам не плошай
        +2
        В век высоких технологий электрики правят миром.
          +22
          Каково состояние инженеров, когда на электричество надежды нет… на дизель тоже… сидишь рядом с упсами на табуретке, грустно смотришь на них, отсчитываешь минуты…
          • UFO just landed and posted this here
              +15
              Я думаю, товарищ имеет ввиду чувство собственного бессилия
              +6
              Ага, а упсов толпы, и они верещат, верещат…

              Кошмар, в общем :)
              +15
              — После скачка напряжения в сети инженеры запустили генераторы…

              В 1987 году в степи, в Казахстане, в 50 км от ближайшего населенного пункта в мороз за -30С у нас на объекте вырубился свет. И в ту же секунду в 100 м в стороне в каком-то сарайке, на который я никогда и не обращал внимания, что-то бумкнуло, затарахтело и все опять заработало. Безо всяких инженеров. Никакие не ракеты, если чо, народнохозяйственный объект.

              Я могу в Амазон адресок кинуть (хорошо, адреса там нет, но я на карте покажу), съездят, научатся, как генераторы подключать.
                +1
                А какая нагрузка висела (мощность), какие требования к скорости переключения были?
                  0
                  Не могу сказать. Там несколько домов было, освещение и все такое, где-то метров 800 на 500. Ну не датацентр, конечно, и несколько секунд света не было.
                    +1
                    Так у них и упсы жестокие, несколько секунд точно протянут
                0
                Знающие люди, подскажите, интересно: на сколько времени работы хватает UPS в дата-центрах таких масштабов?
                  0
                  В нашем дата центре дизель-генераторы выходят на полную мощность в течении 15 секунд. Так что UPS должен обеспечивать энергией как минимум это время.
                    0
                    дык все зависит от того, сколько батареек… это же один большой аккумулятор… на моей прежней работе был APC на 120кВт, батареек было наверное 5-6 42-юнитовых шкафов… при загрузке УПСа где то на 30% все это могло работать часа два
                      0
                      У нас 10 минут рассчитано, видел только 4 минуты так как генератор запостился.
                        +7
                        А как постят генераторы?
                          0
                          запустился)
                            +13
                            На самом деле неплохая идея: Генератор запустился и запостил в твиттер «I'am running on #amazon»
                            • UFO just landed and posted this here
                                +3
                                Генератор спама?
                                +1
                                скорее «I'm running #amazon»
                                  0
                                  Тогда уж: «I'am keeping #amazon alive!»
                                    +1
                                    «Sorry I'm ruining #amazon». если уж совсем по-честному)
                            0
                            Таких масштабов не знаю, а вот в у небольшого сотового оператора, 2 коммутатора и 2 серверных могли кормиться от упсов, если мне не изменяет мой склероз, около 40 минут.

                            И насколько я помню, там дизели начинали запускаться не сразу, а только если питание не вернулось в течение нескольких минут (что-то около 10-15), но точно не скажу, я питанием не занимался, просто рядом стоял.
                              0
                              У меня на работе, на 4сервера+роутер стоит упс с 3мя аккумуляторами ~ пол часа стабильной работы.
                              Но так как генераторами начальство обзавестись не может. Дежурный (в любое время суток) успевает приехать на офис, и вручную переключает на второю линию…
                              Не доверяет моё начальство автоматизации =)
                              +4
                              А если вспомнить Фукусиму, то важность работающих генераторов ещё больше вырастет.
                                0
                                Тогда ещё и единый стандарт на их подключение.
                                –12
                                В совке при отказе правительственных каналов связи, кого-то отправляли на зону. И ЧСХ дизели не отказывали.
                                  +13
                                  Это вы с годом рождения «1990» будете рассказывать про то, что было «в совке»? ;)
                                  +6
                                  Hetzner прислал сегодня письмо с просьбой проверить нагрузку на CPU в связи с лишней секундой с 30 июня на 1 июля.

                                  Якобы по этой причине был скачок потребления энергии до 1 Мегаватт

                                  Оригинальный текст письма:
                                  During the night of 30.06.2012 to 01.07.2012 our internal
                                  monitoring systems registered an increase in the level of
                                  IT power usage by approximately one megawatt.

                                  The reason for this huge surge is the additional switched
                                  leap second which can lead to permanent CPU load on Linux
                                  servers.

                                  According to heise.de, various Linux distributions are
                                  affected by this. Further information can be found at:
                                  www.h-online.com/open/news/item/Leap-second-Linux-can-freeze-1629805.html

                                  In order to reduce CPU load to a normal level again, a
                                  restart of the whole system is necessary in many cases.
                                  First, a soft reboot via the command line should be
                                  attempted. Failing that, you have the option of performing
                                  a hardware reset via the Robot administration interface.
                                  For this, select menu item «Server» and the «Reset» tab
                                  for the respective server in the administration interface.
                                    0
                                    Ага, я долго перечитывал это письмо. Пытался понять — это мне теперь должно быть стыдно за 100% использование процессора? :-)
                                    0
                                    Интересно, а ктото вообще слышал об отказе дизель генераторов в больницах, где пациенты подключены к аппаратам жизнеобеспечения?
                                    Просто интнресно это дезинформация амазона, их экономия на чем-то или действительно настолько все плохо, что даже дизель генераторы не спасают при грозе.
                                    Мне всегда казалось, что дизели должны запускаться сами и никакие инженеры там не нужны.
                                      +5
                                      У всех медицинских и подобных комплексов, где важно жизнеобеспечение, по стандарту (советскому ещё, но его никто не отменял, номер увы не скажу с ходу) обязательно должно быть как минимум два входных фидера от разных питающих сетей и соответственно автоматическое переключение резерва (АВР). На практике встречал, что и три вводных фидера бывает, там где очень надо.

                                      Это первый момент, а второй заключается в том, что больничное оборудование не такой мощный потребитель электроэнергии, как дата-центр, поэтому там часто вполне хватает автономного снабжения от собственной аккумуляторной подстанции, в крупных больницах они обычно есть. К тому же, особо ответственное оборудование, как например аппарат искусственной вентиляции лёгких очень часто снабжён собственным аккумулятором и способен работать автономно. Сам лично помогал проверять работоспособность такого режима в таком аппарате.

                                      >Мне всегда казалось, что дизели должны запускаться сами и никакие инженеры там не нужны.
                                      Это если у вас дизель домашний (и совсем ручной), то да. Вот у меня сейчас под окнами в пределах видимости стоят два дизеля на 2000 кВт каждый, как раз в качестве аварийных самозапускающихся на случай перебоев электроснабжения. Хорошие, дорогие, надёжные, но по практике работы (а мне иногда бывает необходимо по работе заниматься и ими тоже) могу сказать, что любая крупная техника требует специалиста, который бы следил за ними, как минимум периодически проводил опробования, хотя бы просто включал иногда, что бы проверить работоспособность.
                                        0
                                        Спасибо за развернутый ответ.
                                        Хочется немного уточнить, а несколько фидеров в больницах они подводят энергию от разных подстанций? А там по стандарту закладывается, что авария может быть серьезной и отключится вся внешняя энергия?
                                          0
                                          Закладывается. Дизели тоже есть, по крайней мере в более-менее крупных больницах.
                                          +1
                                          хотя бы просто включал иногда, что бы проверить работоспособность.

                                          Это почему еще «иногда»? График должен быть, по этому графику производится пробный запуск, ТО, а может быть и переключение нагрузки на дизель.
                                          Опыт у меня только по ЖД, но там было с этим достаточно строго. Два фидера, обязательно. Дизель хоть и старый, но стоял всегда с горячей системой охлаждения (тэн там стоял и постоянно грел дизель) и в соответствии с графиком производились тестовые запуски, за этим строго следили, по счетчику моточасов. Почему может не запуститься горячий дизель, который на прошлой неделе отлично завелся — я не могу представить.
                                          Более того, надеяться на один дизель все равно нет смысла. Не завелся один — должен завестись другой, на это должно хватать времени упсов. Если это не так, то это как минимум странно.
                                            0
                                            Совершенно верно, так и делается обычно на правильных объектах.
                                        • UFO just landed and posted this here
                                            0
                                            … а потом, как в случае с польским самолётом, с удивлением будут изучать руины в серверах, сгоревших из-за нестабильного питания.
                                          –3
                                          Здесь картинка из startrek с facepalm.
                                            +1
                                            на фото дизель-генератор одного известного бренда по поставке дизельных установок. вопрос к автору именно эти установки и вышли из строя?
                                              +1
                                              Охохо. Проблема была не в самих дизедь-генераторах, а в switchboard, которая не выждала нужное время для запуска двигателей. Сам Амазон пишет, что с генераторами проблем нет, работают без проблем, и что в будущем увеличат время ожидания выхода на расчетную мощность в switchboard.
                                                0
                                                Я чего-то не понимаю. Неужели нельзя было ручками переключить питание на дизели?
                                                  0
                                                  В итоге так и сделали :) И генераторы проработали 30 часов без единого сбоя. Там вообще довольно длинный текст в описании проблем, в каждом датацентре было по разному слегка.
                                                0
                                                А мне вспоминается UA-IX на Леонтовича 9 во времена работы в ukr.net пару лет назад…
                                                И как там минимум раз в неделю дохла старая подстанция и ночные сигналы мониторинга про пропадание питания.
                                                и во дворе со всех углов раздаётся тарахтение :)
                                                  0
                                                  Честно говоря удивлен, что они так прокололись. У нас тесты ДГУ чуть ли не каждый месяц, плюс куча периодических проверок всей инфраструктуры, плюс круглосуточное присутствие энергетика в каждом ЦОД, способного взять ситуацию под контроль (вручную завести ДГУ и переключиться на него).
                                                    0
                                                    Все уважающие себя дата-центы проводят тесты с проверкой АВРов и отключения вводов каждый месяц. Чувствую, что в штате у них вообще не было дежурного инженера =) Увеличится штат ровно на +1…
                                                      +1
                                                      Вообще, есть нормы времени запуска по разным категориям гарантированного энергоснабжения. Я уже много лет не занимаюсь СГЭ и не помню точно. Но для ДГУ время запуска заявляется, вроде, в районе 30 секунд +- 20 секунд при работе в сложных условиях (холод, жара). Вряд ли кто-то устанавливал время меньше 30 секунд.
                                                      Поэтому скорее всего проблема была в повышенной нагрузке, которую просто не выдержали либо ИБП, либо ДГС. Думаю, добавили пару серверов сверх плана на «авось», но не прокатило. Есть еще вариант, что вовремя не обновили элементы ИБП и они на момент аварии просто не обладали нужной емкостью, хотя и были заряжены.

                                                      Only users with full accounts can post comments. Log in, please.