Руководитель отдела эксплуатации залез в люк подземного топливохранилища, чтобы показать маркировку на электромагнитном клапане.
В начале февраля наш самый большой дата-центр Tier III NORD-4 прошел повторную сертификацию Uptime institute (UI) по стандарту Operational Sustainability. Сегодня расскажем, на что смотрят аудиторы и с какими результатами мы финишировали.
Для тех, кто с дата-центрами на «вы», кратко пройдемся по матчасти. Tier Standards оценивает и сертифицирует дата-центры на трех этапах:
- проект (Dеsign): проверяется пакет проектной документации.Тут как раз присваиваются всем известные Tier. Всего их 4: Tier I–IV. Последний, соответственно, самый высокий.
- построенный объект (Facility): проверяется инженерная инфраструктура дата-центра и ее соответствие проекту. Дата-центр проверяют под полной проектной загрузкой с помощью множества тестов примерно такого содержания: один из ИБП (ДГУ, чиллеров, прецизионных кондиционеров, распределительных шкафов, шинопроводов и т.п.) выводится из эксплуатации на обслуживание или ремонт, при этом отключается городское энергоснабжение. ЦОД уровня Tier III и выше должен справиться с ситуацией без каких-либо последствий для полезной ИТ-нагрузки.
Facility можно сдавать, если дата-центр уже прошел сертификацию Dеsign.
NORD-4 получил свой сертификат Design в 2015 году, а Facility — в 2016.
- эксплуатация (Operational Sustainability). По сути, самая главная и сложная сертификация. Она в комплексе оценивает процессы и компетенции оператора по обслуживанию и управлению дата-центром с установленным уровнем Tier (чтобы сдать Operational Sustainability, вы уже должны иметь сертификат Facility). Ведь без правильно выстроенных процессов эксплуатации и квалифицированной команды даже дата-центр Tier IV может превратиться в бесполезное здание с очень дорогим оборудованием.
Здесь тоже свои уровни: Bronze, Silver и Gold. На последней ресертификации финишировали с результатом 88,95 из 100 возможных баллов, и это Silver. До Gold не хватило самую малость — 1,05 балла.
Как проверить, что нужные процессы выстроены и работают как надо? Тем более, как сделать это за два дня — именно столько идет повторная сертификация. Если кратко, то сертификация строится на кропотливом сопоставлении написанного в регламентах, рассказов «как все устроено» и реальных практик. Информация о последних добывается из обходов дата-центра и бесед с инженерами дата-центра — «очных ставок», как мы их ласково называем. Вот на что смотрят.
Команда
В первую очередь аудиторы UI проверяют, хватает ли в дата-центре обслуживающего персонала. Берут штатное расписание, график дежурства и выборочно сверяют с отчетами смен и данными СКУД, чтобы убедиться, что нужное количество инженеров действительно было в тот день на площадке.
Также аудиторы пристально смотрят на количество часов переработки. Такое иногда случается, когда заезжает крупный клиент и одновременно нужно поставить десятки стоек. В такие моменты ребята из других смен приходят на помощь, и им за это выплачивают дополнительные деньги.
В смене на NORD-4 работают 7 инженеров: 6 дежурных и один старший инженер. Это те, кто следит за мониторингом 24х7, встречают клиентов, помогают с установкой оборудования и прочими штатными запросами. Это первая линия клиентской техподдержки. В их же обязанности входит фиксация аварийных ситуаций и эскалация на специализированных инженеров. За работой инженерной инфраструктуры следят отдельные люди — дежурные по инфраструктуре. Также 24х7.
Директор по производству и старший по площадке NORD рассказывает аудиторам, сколько человек работает на площадке прямо сейчас.
Когда с численностью разобрались, проверяют квалификацию команды. Аудиторы случайным образом просматривают личные дела инженеров, чтобы убедиться, что у них есть необходимые дипломы, сертификаты, разрешающие документы (например, удостоверения по электробезопасности) для работы на данной позиции.
А еще проверяют то, как мы обучаем персонал. Наша система подготовки новых дежурных инженеров еще во время прошлого аудита впечатлила специалистов UI. Для них мы проводим трехмесячный курс подготовки в режиме оплачиваемой стажировки, в ходе которой знакомим их с процессами и принципами работы именно в нашем дата-центре.
Уже работающие инженеры тоже должны регулярно проходить тренинги, в том числе и по работе в аварийных ситуациях. Аудиторы обязательно проверят учебные программы и материалы таких тренингов, а еще выборочно проэкзаменуют инженеров. Переключаться на ДГУ никого не будут просить, а вот рассказать пошагово, что надо делать при отключении городского электроснабжения, попросят. По результатам аудита мы будем приводить все программы обучения и тренировок к единому стандарту, чтобы они не отличались для разных команд.
Показываем аудиторам комнату отдыха для сменных инженеров.
Эксплуатация и обслуживание инженерных систем
В этом большом разделе аудита мы показываем, что все инженерное оборудование и системы получают регулярное техническое обслуживание по рекомендуемому вендорами графику, на складе есть необходимый ЗИП, действующие договоры с подрядчиками на обслуживание, а для каждой операции с оборудованием прописаны свои процедуры и алгоритмы работы на разные случаи.
MMS. Когда эксплуатируешь десятки ИБП, ДГУ, кондиционеров и прочего, нужно где-то собирать всю информацию об этом хозяйстве. Вот примерно такое досье создается на каждую единицу оборудования у нас:
- модель и серийный номер;
- маркировка;
- технические характеристики и настройки;
- место установки;
- даты производства, ввода в эксплуатацию, окончания гарантии;
- договоры на обслуживание;
- расписание и история ТО;
- и вся «история болезни» — поломки, ремонты.
Как и где собирать всю эту информацию, каждый оператор дата-центра решает сам. UI не ограничивает в инструментах. Это может быть простая Excel (мы начинали с такого) или самописная Maintenance Management System (MMS), как у нас теперь. Кстати, сервис-деск, складской учет, сетевой журнал, мониторинг тоже самописные.
Вот такое «личное дело» есть на каждую единицу оборудования.
Свои практики по этой части мы показывали в том числе на примере вот этого инфраструктурного ИБП (на фото), который пожертвовал одну из своих деталей ИБП, обслуживающему ИТ-нагрузку. Да, по стандарту таким «донорством» может заниматься только инфраструктурное оборудование, которое питает кондиционеры, аварийное освещение, но не ИТ-нагрузку.
После аудиторы попросили показать соответствующий тикет в Service Desk:
И профиль ИБП в MMS:
ЗИП. Для своевременного обслуживания и аварийных ремонтов инженерного оборудования мы держим свой ЗИП. Есть общий склад с крупными запчастями для оборудования и небольшие шкафы с ЗИП в инженерных помещениях (чтобы не нужно было далеко бежать).
На фото: мы проверяем наличие ЗИП для ДГУ. Насчитали 12 фильтров. Потом сверялись с данными в MMS.
Аналогичное упражнение проделали на основном складе, где хранятся крупные запчасти: компрессоры, контроллеры, автоматика, вентиляторы, пароувлажнители и еще сотни позиций. Выборочно переписали маркировки и «пробили» их по MMS.
Данные по запасам ЗИП. Красное — это то, чего не хватает и нужно докупить.
Предупредительное обслуживание. Помимо ТО и ремонтов UI рекомендует заниматься предупредительным обслуживанием. Оно помогает превратить потенциальную аварию в плановый ремонт. По каждому параметру мы настраиваем пороговые значения в мониторинге. Если они превышаются, ответственные получают алармы и предпринимают необходимые действия. Например, мы:
- Проверяем тепловизором электрические щиты, чтобы вовремя найти дефект в электроустановках: плохой контакт, локальный перегрев проводника или автомата.
- Следим за показателями вибрации и потребляемого тока насосов системы холодоснабжения. Это позволяет вовремя выявить отклонения и без спешки запланировать замену деталей.
- Делаем анализы топлива и масла ДГУ, компрессоров.
- Тестируем гликоль в системе холодоснабжения на концентрацию.
График вибрации насосов до и после ремонта.
Работа с подрядчиками. ТО и ремонты оборудования делают внешние подрядчики. С нашей же стороны есть отдельные специалисты по ДГУ, кондиционерам, ИБП, которые контролируют их работу. Они проверяют, есть ли у подрядчиков необходимые инструменты и материалы для ремонтных работ/ТО, профессиональные сертификаты, корочки электробезопасности, допуски. Они же принимают все работы.
Примерно так выглядит чек-лист для приемки работ по ТО кондиционера.
В бюро пропусков проверяем, оформлены ли пропуска на авторизованных представителей подрядчиков, проходили ли они в указанное время ТО и ознакомились ли они с правилами.
Документация. Выстроенные процессы по обслуживанию систем и оборудования — это полдела. Все процедуры, которые выполняются человеком в дата-центре, должны быть задокументированы. Цель этого простая: чтобы все не замыкалось на одном конкретном человеке и в случае аварии любой инженер мог взять понятную инструкцию и сделать все необходимые операции для ее ликвидации.
У UI своя методология по такой документации.
Для простых и повторяющихся действий составляют стандартные эксплуатационные процедуры (Standard Operational Procedure, SOP). Например, SOP’ы есть для включения/выключения чиллера, постановки ИБП на bypass.
Для технического обслуживания или сложных операций, например, замены батарей у ИБП, создаются процедуры по ведению обслуживающих работ (Methods of Procedures, MOP). Они могут включать в себя SOP’ы. У каждого типа инженерного оборудования должны быть свои MOP’ы.
Наконец, есть аварийные эксплуатационные процедуры (Emergency Operating Procedures, EOP) — инструкции на случай аварии. Составляется список конкретных аварийных ситуаций, и для них пишутся инструкции. Вот часть списка аварийных ситуаций, по которым подробно расписываются признаки аварии, действия, ответственные лица и лица для уведомления:
- отключение городского электроснабжения: ДГУ запустились/не запустились;
- аварии на ИБП;
- аварии на системе мониторинга ЦОД;
- перегрев машинного зала;
- протечка системы холодоснабжения;
- авария на сетевом и вычислительном оборудовании;
и прочее.
Составить такой объем документации — сама по себе трудоемкая работа. Еще сложнее поддерживать ее в актуальном состоянии (это, кстати, аудиторы тоже проверяют). И главное — персонал должен знать эти инструкции, работать по ним и вносить улучшения при необходимости.
Да, инструкции должны быть доступны там, где они могут понадобиться, а не просто пылиться в архивах.
Отметки об изменениях в регламенте обслуживания инженерных систем дата-центра.
В ходе аудита также смотрят на техническую документацию по системам, исполнительную и рабочую документацию, акты сдачи систем в эксплуатацию.
Маркировка. Во время обхода по дата-центру проверяли ее везде, куда только могли дотянуться. Куда не могли дотянуться — дотягивались со стремянки:). Смотрели на ее наличие на каждом щите, автомате, клапане. Проверяли уникальность, однозначность и соответствие актуальным схемам исполнительной документации. На фото ниже: мы в насосной топливохранилища сравниваем маркировку на электромагнитных клапанах со схемой исполнительной документации.
С ней все сошлось, а вот с местной «декоративной» аксонометрической схемой на стене в одном параметре не совпало.
В помещениях дата-центра также должны висеть схемы расположенных там систем. В случае аварий они помогают быстро сориентироваться, где что находится, и принять информированное решение. На фото, например, однолинейная схема в помещении ГРЩ.
Актуальность схем проверяли так: называли маркировку элемента на схеме и просили показать «на натуре».
Вот тут аудитор фотографирует настройки (уставки) расцепителя вводного автомата ГРЩ, чтобы потом сверить с показателями на однолинейной схеме в бумажном и электронном экземплярах. На одном из автоматов, QF-3, показатель не совпал с бумажной схемой, и мы заработали штрафной балл. Теперь два инженера будут проверять на соответствие маркировку в однолинейных схемах с фактом.
Это далеко не все, что проверяли аудиторы в части процессов обслуживания. Вот что еще было на повестке:
- система мониторинга. Тут мы заработали плюсы в карму хорошей визуализацией, наличием мобильного приложения и ситуационными экранами, расставленными в коридорах дата-центров. Тут подробно писали про то, как у нас устроен мониторинг.
Вот такой ЦУП с наглядной информацией о состоянии основных инженерных систем NORD-4 и других наших дата-центров работает на площадке.
- планирование жизненного цикла инженерного оборудования;
- управление мощностями (capacity management);
- бюджетирование (немного рассказывали тут);
- процедура по анализу аварий;
- процесс приемки, ввода в эксплуатацию и тестирования оборудования (про тесты писали тут).
На что еще смотрел UI
Безопасность и контроль доступа. В ходе аудита также проверяют работу систем охраны и безопасности. Например, аудитор попробовал попасть в одно из помещений, куда у него нет доступа, а потом проверил, отразилось ли это в системе СКУД и было ли оповещение об этом у охраны (спойлер — было).
Если в наших дата-центрах дверь в любое помещение остается открытой более двух минут, то на посту охраны срабатывает оповещение. Чтобы проверить это, аудиторы подперли одну из дверей огнетушителем. Правда, сирены мы так и не дождались — охрана увидела неладное через видеокамеры и прибыла на «место преступления» раньше.
Порядок и чистота. Аудиторы смотрят, нет ли пыли, хаотично валяющихся коробок от оборудования, с какой периодичностью убирают помещения. Вот тут, например, аудиторов заинтересовал неопознанный объект в вентиляционном коридоре. Это блок от системы вентиляции, который уже готовился занять свое место. Но все равно попросили подписать.
Еще в тему порядка в дата-центре — вот такие шкафы со всеми необходимыми инструментами для аварийных работ на оборудовании стоят в помещении ГРЩ.
Месторасположение. Дата-центр оценивают по условиям местоположения — нет ли поблизости военных баз, аэропортов, рек, вулканов и прочих опасных объектов. На фото мы как раз показываем, что с момента прошлой сертификации в 2017 году вокруг дата-центра не выросло никаких АЭС и нефтехранилищ. Зато вон там строится новый дата-центр NORD-5, которому тоже предстоит пройти все ступени сертификации Uptime Institute Tier III. Но это уже совсем другая история).