Бесперебойная декада: как обеспечить ЦОДу 10 лет аптайма / Хабр

Современный дата-центр – комплексный организм, состоящий из множества инженерных подсистем, сетевой и ИТ-инфраструктуры. В ЦОДе слишком много переменных и вариантов их взаимодействия, поэтому риски сбоев очень высоки. Тем не менее, вся бизнес-модель дата-центров строится на постоянной доступности ИТ-систем. Как обеспечить 10 лет безаварийной работы такого объекта – рассказываем на примере нашей площадки в Петербурге.

Покой всем только снится

Общее количество сбоев в работе центров обработки данных продолжает расти, однако количество аварий сегодня отстает от скорости ввода в эксплуатацию новых мощностей. Это значит, что в расчете на один ЦОД в последнее время происходит меньше инцидентов – об этом говорит статистика Uptime Institute.

В 2020 году только 6% респондентов исследования Uptime заявили, что их дата-центры столкнулись с серьезными сбоями, по сравнению с 11% годом ранее.

Но успокаиваться рано: число серьезных аварий сокращается, однако размер экономического ущерба от них заметно увеличился. Это связано с постоянно растущей зависимостью организаций от ИТ.

По данным Gartner, средняя стоимость простоя ИТ-систем для бизнеса в 2021 году составляет $5600 в минуту. Поскольку существует множество различий в специфике и масштабе предприятий, потери из-за аварий дата-центров сегодня могут варьироваться в диапазоне от $140 000 до $540 000 в час.

На системы электропитания дата-центров приходится наибольшее количество серьезных инфраструктурных инцидентов, ИБП и автоматические переключатели (ATS) чаще всего становятся их основной причиной (22%).

Появляются новые риски. Например, увеличилось количество сбоев в работе программного обеспечения, отвечающего за координацию работы подсистем дата-центров или за их мониторинг.

Также в отчете Uptime человеческий фактор по-прежнему указывается в качестве одной из главных причин перебоев в работе ЦОДов. В долгосрочной перспективе автоматизация должна сократить количество отказов инженерных систем, которые происходят из-за ошибок сотрудников.

Из этого не следует, что уменьшение количества человеческих ошибок достигается за счет сокращения людей в ЦОДах. Скорее, речь идет о ведущей роли повышения квалификации специалистов в сочетании с грамотным управлением.

Баланс людей, машин и процессов

На фоне опубликованной отраслевой статистики 10 лет бесперебойной работы инженерных и ИТ-систем ЦОД Linxdatacenter в Петербурге, зарегистрированные в сентябре 2021 года, выглядят результатом, о котором хочется рассказать подробнее.

Оптимальный подход к эффективному управлению работой современного дата-центра заключается в балансе между автоматизацией процессов и оптимизацией операционного управления.

Площадка Linxdatacenter в Санкт-Петербурге последовательно наращивает компетенции в плане организации работы штата и повышения его квалификации. Перечень подтвержденных отраслевых стандартов ЦОДа включает в себя ISO 27001, ISO 9001 и PCI DSS, а также ISO 22301 – Business Continuity («Непрерывность бизнеса»), сертификацию защищенности организации от перебоев в операционной деятельности.

Отдельно стоит выделить сертификацию по стандарту Uptime Institute Management & Operations Stamp of Approval. Можно сказать, что работа по обеспечению соответствия требованиям M&O помогла нам переосмыслить подход к управлению дата-центром и во многом позволила обеспечить круглую дату.

Стандарт M&O – результат 20-летнего опыта разбора специалистами Uptime Institute более 6000 кейсов по отказам дата-центров по всему миру. Анализ этих данных показал, что 75% всех инцидентов и аварий так или иначе обусловлены ошибками и небрежностью в работе персонала.

Эта картина складывается из комплекса конкретных операционных ошибок и неверных управленческих решений при комплектовании штата, выстраивании процессов обслуживания оборудования и обучения специалистов.

Чтобы оценить, насколько процессы в конкретном ЦОДе соответствуют идеалу, Uptime разработал методику измерения эффективности сотрудников. Она основана на трех принципах – проактивность, практичность и информированность. Эффективное управление дата-центром достигается при соблюдении сотрудниками всех трех.

Процессы по управлению ЦОДом оцениваются по пяти категориям в соответствии со значимостью вклада в общую статистику отказов: кадровые ресурсы и организация штата (максимум 35 баллов), техническое обслуживание (30), обучение штата (20), планирование, координация и управление (10), условия труда (5).

Апгрейд организации работы сотрудников дата-центра через обучение, прописывание инструкций, своевременное регламентное обслуживание и тренинги действий в чрезвычайных ситуациях, сокращает количество отказов в ЦОДе в 3 раза.

На сегодня в активе ЦОДа Linxdatacenter в Санкт-Петербурге – три аттестации по M&O. Первый аудит Uptime Institute с оценкой квалификации персонала и процессов эксплуатации оборудования прошел в 2018 году.

По его итогам дата-центр набрал 84 балла из 100 возможных. Второй раунд в 2020 году позволил нам достичь оценки в 95,1 балла. В 2021 в ходе третьего аудита мы взяли 96.

Прогресс в 12 баллов за три года – результат постоянной работы над ошибками, множества эпизодов критического анализа и разбора собственных подходов к выполнению ряда рабочих процедур, а ��акже готовности отказываться от привычных паттернов работы в целях повышения операционной надежности площадки.

Не стоит думать, что мы сразу знали «как надо», понимали, в каком направлении двигаться, и владели секретными методиками достижения искомого результата.

Большой объем набитых шишек и моментов озарения «как же мы это сразу не догадались» присутствовал в полном объеме.

Правильное электропитание

В основе всего – решение задач эффективного энергообеспечения площадки.

Всего 15 миллисекунд перебоя питания современного дата-центра достаточно, чтобы бизнес-процессы компаний-клиентов были нарушены с ощутимыми для конечного пользователя последствиями. Для понимания: 1 миллисекунда (мс) — это одна тысячная доле секунды. 5 мс – время, необходимое пчеле для одного взмаха крыла.

Сбой в питании ведет к перезагрузке серверов, перезапуску операционных систем и прикладного софта, что чревато полной остановкой всех пользовательских систем и сервисов.

Защититься от этого можно. Для этого надо отказаться от централизованного поставщика электричества. Если ЦОД потребляет более 1 МВт, и есть строгие требования к непрерывности ИТ-процессов клиентов (например, в ЦОДе стоит процессинговый центр крупного банка) – имеет смысл подумать о своем независимом электричестве.

ЦОД Linxdatacenter в Санкт-Петербурге автономен: его потребности в электричестве обеспечиваются газо-поршневой электростанцией на 12 МВт. Если подача газа по каким-то причинам будет прекращена, есть ИБП, мощностей которых хватит на 40 минут бесперебойной работы ЦОДа.

За это время можно запустить дизель-генераторы (ДГУ), которые на имеющимся запасе топлива обеспечат еще минимум 72 часа автономной работы. Параллельно в действие вступят контракты с поставщиками топлива, которые обязаны привезти оговоренные объемы в ЦОД в течение 4 часов.

Эта схема обеспечения дата-центра электричеством лежит в основе его высокого уровня отказоустойчивости. Однако даже при полной энергонезависимости существует множество факторов, способных «положить» ЦОД полностью или частично.

Сотрудники клиента неправильно подключили оборудование в стойке? Короткое замыкание, сбой. Специалисты не проконтролировали емкость аккумуляторов ИБП? При аварийной ситуации бесшовного переключения на резервную схему питания не произойдет. Кто-то не проверил объемы заправки топлива в баки ДГУ? Оно закончится в самый неподходящий момент, и ЦОД встанет.

Выход? Профилактика и тренинг персонала, а также мониторинг работы всех систем и подсистем площадки. Нужно проводить регулярное плановое переключение на резервную схему питания ЦОДа, а также отрабатывать сценарии различных сбоев и аварийных ситуаций, оттачивая взаимодействие сотрудников до автоматизма для минимизации возможных последствий.

Любая схема резервирования инженерных систем дата-центра работает только при условии регулярной отработки внештатных ситуаций, постоянного подтверждения квалификации персонала и контрактам с надежными поставщиками услуг, наличия комплектующих и расходных материалов.

Мы развили концепцию превентивных работ до максимума: ввели процедуру анализа качества поставляемого топлива и проводим профилактический уход за дизель-генераторными установками.

Казалось бы, рутинная операция – уборка ДГУ. Где там можно найти пространство для оптимизации? Однако выяснилось, что своевременное удаление грязи и пыли серьезно откладывает ранний абразивный износ движущихся частей ДГУ.

В сочетании с регулярным осмотром и проверкой узлов это позволяет найти – и сделать это вовремя – трещины на изоляции на перемычке аккумуляторов, ослабление клемм на низковольтном генераторе, разболтанные хомуты на турбинах, протечки в фильтрах (риск утечки масла в процессе работы) и т.д.

Банальное поддержание установок в чистоте и простой уход (даже без фанатизма, а просто на регулярной основе) позволяет практически исключить риски того, что в ответственный момент случится отказ, и ДГУ не запустится.

Экзамен на зрелость

Второй фактор высокого аптайма: работа со штатом сотрудников инженерных служб, в основе которой лежит система аттестации и тренинги. Без надлежащего количества квалифицированных сотрудников и правильной организации труда у ЦОДа не будет ресурсов для успешного функционирования.

Обеспечить себя такими сотрудниками можно через качественный подбор персонала и разработку программы обслуживания инженерных систем. Такая программа состоит из профилактического обслуживания (PM), политики уборки, системы управления техническим обслуживанием (MMS) для отслеживания работ, а также соглашения об уровне обслуживания (SLA).

M&O предлагает в качестве решения комплексную программу обучения персонала, формализованную и опирающуюся на отдельный блок документации.

Такой подход обеспечивает согласованность эксплуатации и технического обслуживания инфраструктуры ЦОД. Цитируя стандарт: «Весь персонал должен понимать политики, процедуры и уникальные требования к работе в ЦОД, чтобы избежать незапланированных простоев и реагировать на ожидаемые события».

Отсюда берет начало наша система аттестации. Помимо M&O она базируется на стандарте ISO 22301 «Security and resilience – Business continuity management systems» («Безопасность и устойчивость – Системы управления операционной непрерывностью бизнеса»). Другой источник вдохновения – собственный опыт, он отражен в нашей документации по процедурам аварийной эксплуатации (EOP – Emergency Operations Procedures).

Прохождение аттестации на знание инструкций, сценариев реагирования на чрезвычайные и штатные ситуации, распределение ролей и зон ответственности между участниками дежурной смены и др. – обязанность всех работников ЦОДа.

Мы неоднократно убеждались, что любые методики контроля качества приносят результат, если они формализованы и применяются на регулярной основе – это еще одна причина ввода обязательной аттестации.

Сейчас аттестацию работника проводит комиссия в составе не менее трех человек в рамках опросников и тестов. Общее количество вопросов – 60-70, во время аттестации случайным образом выбираются 15. Около 80% вопросов касаются непосредственно профессии, остальные 20% – смежных областей знаний и компетенций. По итогам выносится заключение об уровне соответствия сотрудника занимаемой должности.

Например, после одного из аудитов Uptime выяснилось, что чек-листы для оперативных групп хоть и были очень подробными, однако в них не было полей для отметки выполненных шагов в рамках процедуры. Получили рекомендацию добавить необходимые поля. Небольшое и очевидное улучшение значительно повысило качество контроля за профилактическим обслуживанием.

Также всю библиотеку существующих у нас инструкций Uptime порекомендовал объединить в рамках матрицы или блок-схемы ответственных и подотчетных лиц — для наглядности и информированного выполнения процессов, связанных с эксплуатацией, поддержкой и обеспечением безопасности.

Всевидящее око мониторинга

Система мониторинга работы инженерных систем в ЦОДе (BMS, Building Monitoring System) – завершающий и критически важный компонент обеспечения аптайма. Он напрямую влияет на скорость реакции персонала на аварийные ситуации. Сегодня мы используем BMS-систему, кастомизированную в собственном облаке, разработанную специально под требования наших специалистов.

Доступ к ней обеспечивается через веб-браузер из любой точки, без обязательного присутствия инженера на территории ЦОДа. Интерфейс системы анимирован так, чтобы динамика функционирования инфраструктуры была наглядна для дежурных инженеров.

Также в BMS-решении обеспечивается поддержка формул для обсчета ��аботы виртуальных датчиков в инженерных системах – например, для оптимального распределения электрических мощностей по стойкам с оборудованием.

Система обеспечивает доступ к базе данных SQL с возможностью брать из нее нужные данные о работе оборудования – а именно, все записи о мониторинге 2 тысяч устройств и виртуальных датчиков, генерирующих примерно 20 тыс. переменных.

Еще одна «фишка» нашей BMS-системы: на одной странице представлены все основные параметры ЦОДа, чтобы с одного взгляда на экран оценит состояние основных систем, так называемый формат One page.

Это таблица, сверстанная под формат вертикально расположенного экрана смартфона. Расположение ячеек в таблице повторяет архитектуру ЦОДа (физическую или логическую). Последовательность отражает зрительные ассоциации персонала дата-центра, что упрощает поиск нужной информации.

Система поддерживает мобильность сотрудников. Помимо контроля мониторинга в помещении дежурной смены, инженеры делают обходы, выполняют текущую работу вне «дежурки» и, благодаря оптимизированному под мобильный экран главному экрану BMS, не теряют контроль за происходящим в машзалах.

Качество контроля повышается благодаря функциональности рабочих чатов. Они ускоряют рабочие процессы, позволяя привязать переписку дежурных инженеров к BMS. Например, приложение MS Teams позволяет вести внутреннюю переписку и получать на телефон все сообщения из BMS в виде всплывающих Push-уведомлений, что избавляет дежурного от необходимости постоянно смотреть в экран телефона.

Здесь не все прошло гладко: мы недооценили объем изменений, которые потребовалось внести в базовую версию новой BMS, и не уложились в сроки. Критической проблемой это не стало, так как мы подстраховались и работали на старой системе.

Также потребовалось несколько этапов испытаний, чтобы отладить алгоритм резервирования виртуальных машин и каналов связи. Изначально сбои были и на стороне системы BMS, и в ходе настройки виртуальных машин и сети. Эта отладка тоже заняла время.

Итоговое решение оказалось сложнее для редактирования конечным пользователем, более требовательным в эксплуатации. Ранее карта представляла собой подложку (графический файл) и значки, изменить или переместить которые не составляло труда. Сейчас это сложный графический интерфейс с анимацией, его редактирование требует от инженеров определенных навыков.

Мелочей нет – постоянное развитие

Это довольно общий взгляд на те составляющие, которые позволяют обеспечивать 100%-ный uptime ЦОДа и рассчитывать на повторение безаварийной декады.

Пожалуй, самый главный фактор на этом пути – желание и способность постоянно находить возможности для улучшения работы ЦОДа, копаться в мелочах, просчитывая сценарии апгрейда по не самым очевидным направлениям.

Именно такое отношение к задаче позволило нам в свое время обнаружить проблемы с контролем уровня давления и «подпора» воздуха в серверных помещениях и наладить его оптимальные показатели. Мы также обнаружили и устранили причину загрязнения воздуха в машзалах.

На пути к 100%-ному уровню аптайма нет мелочей и нет остановок – это постоянное совершенствование, например, через ввод в эксплуатацию нового энергооборудования или создание безопасных условий труда технического персонала через внедрение в практику системы LOTO.

Бесперебойная декада: как обеспечить ЦОДу 10 лет аптайма