Как стать автором
Обновить
65.54
Cloud4Y
#1 Корпоративный облачный провайдер

Защита от возгораний в дата-центрах, или как обеспечивается сохранность данных

Время на прочтение13 мин
Количество просмотров6.5K


После нашумевшего пожара в дата-центре Dataline на Боровой 5 июня мы получили шквал звонков от обеспокоенных клиентов. Всех волновал один вопрос: «Стоит ли готовиться к худшему?». Несмотря на то, что Cloud4Y не имеет никакого отношения к дата-центру OST, мы решили рассказать про особенности подобных инцидентов. Что реально может грозить данным клиентов и как облачные провайдеры решают вопросы обеспечения бесперебойной работы серверов.

ЦОД (центр обработки данных), или дата-центр — это здание, сооружение или помещение, в котором установлены серверы и сетевое оборудование, и которое предназначено для обработки, хранения и распространения информации. ЦОД рассчитан на непрерывную работу под высокой нагрузкой, а потому должен быть защищён от любых ЧП. Если он «полетит», экономические и репутационные потери для компании или компаний, которые пользовались его сервисами, могут быть критическими.

Любой простой, даже секундный, может привести к сбою обслуживаемых им сервисов, связанных не только с бизнес-процессами, но и безопасностью людей. Поэтому главных требований к ЦОДам два: отказоустойчивость и стоимость эксплуатации.

Правильно спроектированная система пожарной безопасности — важная составляющая отказоустойчивости, поэтому дата-центры тратят массу средств на её совершенствование. И это помогает — пожары в центрах обработки данных случаются очень редко, а пользовательские данные страдают и вовсе в исключительных случаях.

Отчего горят ЦОДы


Основные причины возгорания:

  • Качество проектирования помещений;
  • Квалификация лиц, ответственных за пожарную безопасность и работу с электрикой;
  • Организация мониторинга инфраструктуры;
  • Своевременность обслуживания инженерных систем.

Нужно понимать, что хороший современный дата-центр — это большая территория, которая пронизана километрами кабелей и наполнена электронным оборудованием (шкафами, стойками) с высокой концентрацией устройств и потребляемой мощностью. Всё это оборудование здорово греется во время работы, а потому является потенциальным источником возгорания. Не стоит забывать и про ИБП или ДДИБП с запасом топлива, а также внешние причины возникновения огня в дата-центре: молния, подтопление, человеческий фактор.

Однако практика показывает, что непосредственно в защищённых помещениях дата-центра пожары практически не возникают, настолько высок там уровень защиты. В ЦОДах устанавливают чувствительные пожарные извещатели, объединённые в общую систему оповещения о пожаре и пожаротушения. Также обязательно существует регламент, согласно которому проводится комплекс организационных мероприятий, включающий постоянный визуальный осмотр оборудования, проверку соблюдения пожарных норм и правил эксплуатации электроустановок.

А Кристоф Кайнц (Christoph Kainz), независимый эксперт по пожарным рискам из Германии, и вовсе считает, что примерно в 80% случаев причина пожаров в центрах обработки данных лежит вне помещений с IT оборудованием. Его опыт показывает, что возгорания происходят из-за плохого разделения машинных залов от соседних помещений, слабой противопожарной системы в этих помещениях и высокой пожарной нагрузки в них.

Очевидно, что ЦОДы серьёзно вкладываются в пожарную безопасность, поэтому возгорания непосредственно на стойках чрезвычайно редки. Поэтому данные пользователей, как правило, остаются неповреждёнными.

Сценарии возникновения пожара в ЦОД




Различают три сценария развития пожара в центрах обработки данных. Для каждого из них применяются строго определенные средства обнаружения, эффективные именно для данной ситуации.

Сценарий №1: тление (проводов или микросхем). Выделяемый дым присутствует в воздухе в минимальной концентрации. Пожар на этом этапе сможет обнаружить аспирационная система раннего обнаружения возгорания. Так как ущерб электронике часто наносит не пламя, а выделяющийся при тлении и горении газ, который окисляет электронные контакты.

Решение: Современные ЦОДы используют газоанализаторы, встроенные в систему раннего обнаружения пожара.

Сценарий №2: сильное задымление стоечного пространства. Задымлённость обнаруживают неадресные датчики дыма, установленные внутри стоек. Отправляемые ими сигналы обрабатывает программа мониторинга серверного оборудования, установленного в дата-центре.

Решение: Датчики используют в качестве источника дополнительной информации для контроля всех систем данного объекта. Иногда — для активации системы пожаротушения отдельной стойки.

Сценарий №3: сильное задымление помещения ЦОД. Выявляется благодаря адресным или неадресным датчикам общей системы пожарной сигнализации, установленных внутри помещения дата-центра. Пожарные панели, выступающие в качестве центрального приемно-контрольного оборудования, при обнаружении возгорания автоматически запускают системы активного пожаротушения.

Решение: Процесс тушения охватывает уже всё пространство ЦОДа. В зависимости от особенностей помещений используются разные пожаротушащие вещества.

Ещё раз подчеркнём, что продукты горения изоляции кабеля может нанести значительный вред электронному оборудованию. При возгорании из 1 кг ПВХ выделяется несколько сотен литров дымовых газов, включая хлористый водород HCl. Последний, вступая в реакцию с окружающей атмосферой, синтезируется в соляную кислоту, вызывающую коррозию электрических контактов и даже замыкания последних. Стоит ли говорить о том, что такие процессы необходимо как можно раньше обнаружить и ликвидировать?

Поэтому на АЭС, к примеру, для монтажа кабельных линий в местах установки микропроцессорной техники, компьютеров и другой электроники применяются негорючие кабельные изделия (СТО СРО-С 60542960 00030-2014, СТО 1.1.1.01.001.0902-2013), с изоляцией и оболочкой из полимерных композиций, которые не выделяют коррозионно-активных газов при тлении. В дата-центрах актуален ГОСТ 31565-2012 «Кабельные изделия. Требования пожарной безопасности», который определяет тип кабельных изделий, не выделяющих коррозионно-активные газообразные продукты при горении и тлении.

Спринклерные и дренчерные системы тушения пожаров на стойках использовать нельзя, ведь в случае их срабатывания дорогостоящее оборудование будет залито водой и непоправимо испорчено. Но чем тогда тушить?

Как тушат ЦОДы




Системы автоматического пожаротушения начинают работать в том случае, если развитие пожара невозможно остановить другими способами, например, отключив задымившийся сервер или системы кондиционирования. Как мы уже сказали, неправильно подобранная установка пожаротушения при срабатывании способна нанести ущерб сопоставимый, а порой и превышающий ущерб от самого пожара. Поэтому нужно выбирать установки с учётом следующих факторов:

  • Безопасность для людей, оборудования и окружающей среды;
  • Экономическая эффективность;
  • Срок службы и эффективность ОТВ для тушения в каждом конкретном случае;
  • Требуемая площадь для размещения (чем меньше места занимает установка пожаротушения, тем лучше);
  • Возможность создания упрощенных трубных разводок.

На данный момент нет такого средства тушения серверной, которое бы соответствовало всем этим требованиям. Поэтому при оснащении дата-центров выбирается один или несколько вариантов из пяти основных методов ликвидации возгораний:

Гипоксический метод


Суть данного метода заключается в борьбе с возгоранием путем создания и поддержания атмосферы, в которой пожар не может возникнуть. В помещение вводится азот, который уменьшает содержание кислорода до уровня ниже 14%. Азот постоянно вырабатывается из атмосферного воздуха специальным генератором. В такой атмосфере огонь не может возникнуть и распространяться, и при этом такой уровень кислорода достаточен для работы в серверном помещении.

Гипоксический метод выигрывает у других способов пожаротушения по всем параметрам, кроме одного — стоимости. Далеко не каждая компания способна потратить такую сумму денег на борьбу с пожаром.

Изоляция


Эффективный метод, работающий по принципу «замещение кислорода». В комнату, охваченную огнем, подается чистый инертный газ или смесь для пожаротушения. Уровень кислорода становится ниже 14% и пламя гаснет. Используется азот, аргон, аргонит или инерген. Из минусов опять можно отметить возможность опасных для человека химических реакций.

Ингибирование


Метод, который предполагает связывание активных центров, что приводит к обрыву цепной реакции горения. Если проще, то в помещение впрыскивается галогенизированный газ, который тормозит химические реакции в пламени, подавляя активные центры (радикалы и атомарные частицы, имеющие свободные валентности), тем самым препятствуя процессу горения. В качестве ингибиторов обычно используются хладоны (фторированные углеводороды). В последнее время также становится популярным вещество Novec 1230 ( известное как «сухая вода»).

Отметим, что при химической реакции ингибирования возможно выделение побочных продуктов, которые могут быть опасными для людей, а также оставляют налет на защищаемом оборудовании.

Охлаждение


Один из самых молодых способов тушения серверных помещений, получивший широкое распространение в Европе, в таких дата-центрах как TCN Eemsdelta и Telecity IV в Нидерландах, научно-технологическом полигоне CX2 Cyberjaya в Малайзии и других. Во время пожара на область горения распыляется водяной туман (струи тонкораспыленной мелкодисперсной воды), что приводит к снижению уровня кислорода на местном уровне и охлаждает зону возникновения огня. В качестве воды используется дистиллированная вода, которой разрешено тушить электрооборудования мощностью до 10 Кв.

Данный метод использует на 90% меньше воды, чем спринклерные системы, исключает протекание трубопровода в повседневном режиме и дёшев при перезаправке системы. Но также нужно упомянуть высокую стоимость системы. Она предполагает использование от одной до нескольких насосных станций, поддерживающих постоянное давление в трубопроводе, к которому также предъявляются серьезные технические требования. Отчасти из-за этого данный метод не получил широкого распространения среди российских дата-центров. У нас сохраняется стойкое недоверие к воде как к огнетушащему веществу для электрооборудования. Даже мелкодисперсная вода может конденсироваться в капли, поэтому в месте возгорания так или иначе будет сыро, что недопустимо в серверном помещении.

Порошок/аэрозоль


Реже всего встречающийся метод тушения в ЦОДах. При возгорании происходит выброс порошковой химии и распыление аэрозоля. И порошок, и аэрозоль на поверхности раскаленных горящих предметов образуют пленку, предотвращающую проникновение кислорода, что снижает вероятность повторного возгорания. В серверной это станет проблемой, так как порошки и аэрозоли проникают внутрь любого оборудования и оседают на внутренних компонентах, никак не защищенных от контакта с агрессивными веществами. После такого тушения оборудование станет постепенно выходить из строя в результате коррозии и возникновения коротких замыканий в электрических цепях.

Кстати, в трансформаторных и ДДИБП обычно устанавливают системы порошкового пожаротушения, а в офисные помещения, коридоры и места общего пользования — традиционные спринклерные.

Какое противопожарное решение наиболее эффективно?


В целом, очевидным лидером сейчас является метод газового пожаротушения. Газ не вредит электрооборудованию и прекрасно работает даже в труднодоступных помещениях. Также стоит учитывать тот факт, что серверные помещения в ЦОД работают без постоянного присутствия персонала в них, а пожаротушение выполняется при работающем оборудовании (под напряжением). Благодаря компактности газовых установок их можно масштабировать под конкретный объект защиты и поддерживаемый температурный диапазон работ от -40 и до +55 °С, защищая модульные и контейнерные (мобильные) ЦОД.

Системы газового пожаротушения можно организовать по двум принципам:

  • Стоечный. Воздействию подвергается отдельная стойка. Применяется для отсеков с оборудованием специального назначения, особенно если потеря хранящихся там данных обойдется дороже установки и эксплуатации газовой системы пожаротушения. Срабатывание системы позволяет не прерывать работу оборудования, установленного в других стойках. Это удобно, когда стойки в дата-центре арендуют разные компании: пожар в одной из стоек не приводит к отключению остальных серверов.
  • Общий. Система выполняет функцию обнаружения и тушения очага возгорания на всей площади защищаемого ЦОДа. Состоит такая система из магистрального и распределительного трубопровода, насадок для выпуска газа, датчиков для обнаружения пожара, контроллеров управления, а также из батарей баллонов с огнетушащим составом. Её вполне можно собрать из компонентов от разных производителей.

В большинстве случаев в современных установках для тушения пожаров используются перечисленные ниже газы:

  • Хладон 125ХП. Его действие основано на эффекте ингибирования с незначительным использованием принципа разбавления. В ходе тушения выделяется большое количество вредных соединений в результате химического разложения газа.
  • Хладон 227еа. Также действует на основе эффекта ингибирования, останавливая процесс горения на химическом уровне и поглощая тепло. В ходе тушения также выделяется множество вредных веществ.
  • Инерген. Пожаротушение с помощью этого вещества основано на механизме разбавления, т.е. происходит за счет снижения концентрации кислорода в помещении (вытеснение воздуха). Для инергена характерно значительное расширение вещества в газовой фазе при выпуске, что обеспечивает сильное понижение температуры в помещении.
  • Novec 1230. Этот газ создает эффект охлаждения за счет отбора тепловой энергии у цепной реакции горения. При этом температура в защищаемом помещении также незначительно (не более чем на 2–3 градуса) понижается.

Выбор «правильного» тушащего вещества делается только после анализа защищаемого объекта.

Самые известные «погорельцы»




27.03.2010
Пожар в дата-центре «Технологии Будущего». В результате серверы пострадали от огня и от воды, которой его тушили. Более чем на сутки были выведены из строя около 2500 тыс. сайтов. Лежали хостинг-провайдеры hosting.ua, ostia.ru, onelim.net, provisov.net, imhoster.net, alekshost.ru, onlinehoster.net, xlhost.ru. Удивительно, но в дата-центре была установлена одна из наиболее современных систем пожаротушения, которая не сработала, так как была отключена вручную. Она очень часто ложно срабатывала и сотрудники дата-центра ее отключали. В результате огнём пришлось заниматься пожарным. Ущерб оценили в десятки миллионов долларов. Этот пожар стал толчком к созданию более качественных детекторов и послужила поводом переписать не одну внутреннюю инструкцию по противопожарной безопасности.

05.11.2010
При пожаре в новом вычислительном центре страховой группы ЭРГО в Дюссельдорфе в первой половине дня в пятницу пострадало 28 человек. 20 сотрудников были госпитализированы с тяжелым отравлением угарным газом. Сообщений о проблеме с данными пользователей не поступало.

06.07.2012
В Сиэтле, на родине Microsoft, произошло возгорание в системе электропитания большого вычислительного центра, что привело к выходу из строя функций поиска запросов в новой поисковой системе Microsoft Bing. Пользовательские данные опять не пострадали.

20.04.2014
Пожар в здании дата-центра Samsung SDS, который находится в городе Квачхон (Южная Корея), послужил причиной сбоев работы смартфонов, планшетов и смарт ТВ по всему миру. Одновременно с этим ушел в офлайн и веб-сайт Samsung.com. Даунтайм ЦОД продлился несколько часов, после чего большинство пользователей снова получили полный доступ к функционалу устройств. Сайт Samsung.com также вернулся в онлайн.

10.02.2015
Атаке злоумышленников подверглась крупная датская коммерческая фирма. Злоумышленники подожгли офис компании, и от большей части здания остались одни угольки. Серверная ферма оказалась окружена огнем, который за 60 минут уничтожил всё за ее пределами – в том числе силовые и телекоммуникационные кабели во внешнем помещении. Наружные стены серверной комнаты в тот момент были настолько горячими, что сотрудники пожарной службы решили просверлить отверстие в двери, чтобы посмотреть, нет ли пожара внутри. Когда комната в конечном итоге была открыта, всё IT-оборудование оказалось цело и невредимо. Экстремально высокая температура во время пожара активировала систему пожаротушения модульного ЦОД, которая затопила комнату инергеном (смесь азота, аргона и углекислого газа). Клапан выравнивания давления позволил излишкам газа выйти наружу для устранения избыточного давления. При этом в помещение попало небольшое облачко дыма, из-за которого на стенах появилось несколько темных пятен. После развертывания новой инфраструктуры электропитания и сетевых кабелей оборудование было повторно запущено. В конечном итоге на повторный запуск серверной фермы потребовалось около трёх дней.

30.06.2015
Сильный пожар в помещении с телекоммуникационным оборудованием внутри дата-центра одного из крупнейших британских операторов BT Group вывел весь ЦОД в Белфасте (Великобритания) из строя и оставил без доступа к связи и интернету многочисленных клиентов компании, включая государственные учреждения. Особенно сильно пострадали Tibus (сервис-провайдер) и Translink (занимается общественным транспортом), Городской совет Белфаста, Northern Ireland Electricity (энергетическая компания). Из-за чего возник пожар, компания не сообщила.

24.11.2015
Пожар в дата-центре Delta Telecom в столичном Баку лишил азербайджанских пользователей доступа в интернет. Даунтайм длился в течение восьми часов и затронул 78 процентов сетей Азербайджана. Речь идёт о 6 с лишним сотнях сетей, которые использовали одно ключевое соединение между Delta Telecom и Telecom Italia Sparkle. После этого инцидента получить доступ к интернет-услугам можно было лишь с использование каналов местных мобильных операторов Backcell и Azerfon. Проблемы с интернетом возникли из-за низкого количества сетей, которые связывают страну с внешними узлами обмена трафиком. Подобная ситуация в настоящее время характерна для многих соседних государств вроде Ирана, Грузии, Армении и Саудовской Аравии.

17.08.2016
Из-за задымления в дата-центре канадской государственной организации Shared Services Canada, которая отвечает за обслуживание правительственной IT-инфраструктуры, несколько ведомств оказались не в состоянии предоставлять услуги гражданам североамериканского государства в нормальном режиме. Инцидент вызвал массовое отключение правительственных веб-сайтов и системы начисления заработной платы. Кроме того, в офлайн ушел сервер внутренней электронной почты для государственных служащих. По данным информагентства The Canadian Press, около 50 тыс. работников предприятий из сферы общественных услуг оказались не в состоянии получать и отправлять сообщения по электронной почте в течение дня. Даунтаймом было затронуто и Министерство транспорта Канады.

16.03.2016
Пожар в дата-центре Selectel в Санкт-Петербурге. Возгорание произошло во время проведения строительных работ. Огонь распространился на кровлю и фасад здания над офисными помещениями. Из-за пожара была перекрыта улица, но данные клиентов не пострадали.

06.03.2018
В южном штате Бразилии Рио-Гранде-ду-Сул, городе Порту-Алегри, произошел пожар в центре обработки данных BRDigital, входящем в группу компаний CommCorp. Прибывшие на место пожарные эвакуировали людей и обесточили 13-этажное здание в самом центре города. Вскоре пожар был локализован и ликвидирован, а полиция заблокировала здание для экспертизы, запланированной на среду. Компании, пострадавшие от пожара и находящиеся в этом здании, начали возобновлять свою деятельность только 9 марта, в пятницу. Один из клиентов этого дата-центра, Rafael Azeved, написал: «Единственной противопожарной системой, существовавшей в центре обработки данных, был огнетушитель из кухни». Если интересно, то вот история последних минут работы одного из серверов:

[15:22 pm] - Ошибка IPMI: сбой вентилятора 0
[15:23 pm] - Ошибка IPMI: сбой вентилятора 1
[15:24 pm] - Ошибка связи BCM
[15:25 pm] - Ошибка IPMI: перегрев процессора 0
[15:25 pm] - Ошибка IPMI: перегрев процессора 1
[15:25 pm] - Ошибка IPMI: перегрев процессора 2
[15:25 pm] - Ошибка IPMI: перегрев процессора 3
[15:25 pm] - Ошибка IPMI: ошибка управления питанием
[15:26 pm] - Ошибка IPMI: сбой датчика напряжения
[15:26 pm] - Ошибка IPMI: сбой датчика температуры> 180 градусов
[15:26 pm] - Ошибка IPMI: отказ BCM


05.06.2019
Пожар в дата-центре OST привёл к перебоям в работе служб компании Mail.ru. Для его тушения пришлось отключить большую часть основных почтовых серверов. 80% жалоб в сервис Down Detector были связаны с недоступностью конкретно почты Mail.ru, у 16% сайт Mail.ru не открывался вообще. Среди пострадавших оказалась и компания QIWI, чей дата-центр также был расположен в здании. Им понадобилось примерно 30 минут, чтобы переключить все операции на резервную систему и восстановить штатный режим по работе с платежами. Утверждается, что данные пользователей не были затронуты пожаром.

Заключение


Мы для хранения данных клиентов используеем сеть дата-центров в России и Европе, сертифицированных на уровне надёжности Tier 3. Как обеспечивается пожарная безопасность в ЦОДах этого уровня:

  • Установлена автоматическая система пожаробезопасности. Состоит из 3-х подсистем (газовой, порошковой, спринклерной) и защищает 100% площадей объекта;
  • В электроинсталляции ЦОД используются медные кабели с огнеупорной изоляцией;
  • Мониторинг компонентов инфраструктуры ЦОД данного класса проводится круглосуточно;
  • Установлена аспирационная система раннего обнаружения дыма (VESDA);
  • Используются современные системы автоматической пожарной сигнализации, показывающие минимум ложных срабатываний;
  • Предусмотрена возможность одновременного тушения возгораний сразу в двух помещениях.

Уровень отказоустойчивости дата-центра уровня надёжности Tier 3 составляет 99,982%. Это достигается не только за счет дублирования систем, но и продуманной концепции обеспечения пожарной безопасности. Хранить данные в таких дата-центрах действительно безопасно. Попробуйте?
Теги:
Хабы:
Всего голосов 22: ↑10 и ↓12-2
Комментарии2

Публикации

Информация

Сайт
www.cloud4y.ru
Дата регистрации
Дата основания
2009
Численность
51–100 человек
Местоположение
Россия