Компания Amazon объяснила причины обесточивания дата-центра в регионе East-1 в Северной Виргинии, в результате чего 30 июня в офлайн ушли Instagram, Netflix, Pinterest и другие сайты.
Причиной названа некорректная работа дизель-генераторов, точнее, распредилительного щитка (switchboard), который должен был переключить систему с одного канала на другой. После скачка напряжения «генераторы запустились нормально», но если один из дата-центров East-1 запитался от генераторов без инцидентов, то во втором дата-центре «каждый генератор в отдельности не смог обеспечить стабильное напряжение после их запуска», объясняет Amazon. В результате, сеть автоматически не перешла на питание от генераторов, и в UPS’ах вскоре кончился заряд.
Дизель-генераторы были установлены в дата-центре в конце 2010-го и начале 2011 года, до установки они были протестированы производителем. После установки в дата-центр их снова прогнали через восьмичасовые тесты, всё работало нормально. 12 мая эти дизель-генераторы опять же тестировали в полевых условиях, когда базовое энергоснабжение дата-центра полностью отключали, тоже всё было нормально.
Теперь генераторы пройдут ремонт и повторную сертификацию производителем, либо их заменят на другие. Компания Amazon обещает приложить все усилия, чтобы подобная ситуация не повторилась в будущем: будет увеличено окно времени, которое даётся дизель-генераторам на набор мощности для достижения стабильного напряжения, прежде чем автоматические системы решат, переключаться на питание от генератора или нет. Кроме того, в дата-центрах будет увеличен штат инженерного персонала, чтобы при отключении электричества они в случае необходимости могли вручную запустить генератор и переключить систему на питание от него, так что UPS'ы не смогут разрядиться и клиенты дата-центра не пострадают.
via Wired