Практика эксплуатационщика: 1000 дней без простоя ЦОДа TIER-III


    Окисление контактов перемычки аккумулятора вызвало нагрев. При наружном осмотре следов окисления не видно, поскольку оно произошло между клеммой аккумулятора и наконечником перемычки.

    Пару недель назад у меня и коллег случился маленький праздник: 1000 дней непрерывной работы ЦОДа без простоя сервиса. В смысле — без влияния на оборудование заказчиков, но со штатными и не очень работами по системам.

    Ниже я расскажу о том, как я и мои коллеги обслуживают ЦОД повышенной ответственности, и какие бывают подводные камни.

    Регламентные работы


    В начале года составляется план-график регламентных работ и предупредительных ремонтов на следующий год. Это похоже на ТО автомобиля: прописываются работы, узлы, периодичность, кто для этого нужен. Узел за узлом нужно осматривать, проверять работу, чистить и прозванивать. Во время таких штатных работ самое большое, что мы делали за почти три года, это меняли теплообменники на чиллерах и части компрессоров. Там у нас резервирование N+1, поэтому на работы выходила смена, убеждалась, что всё хорошо, один блок отключался, и там проводилась замена, затем блок тестировался и возвращался в эксплуатацию.

    Из мелких замен стоит отметить предупредительные замены аккумуляторов ИБП в линейках, вентиляторы, разные конденсаторы. С конденсаторами конкретно на нашей площадке работа устроена очень удобно (как вы видите выше, мы имеем возможность просто сфотографировать плату на тепловизор и сразу увидеть, что греется). На фотографии выше мы прозвонили схему и обнаружили, что конденсатор потерял вдвое от расчётной ёмкости, сразу же заменили на месте.


    Виновник торжества

    Тепловизор рулит. Вот тут в процессе заряда температура поднялась выше нормальной на неисправном аккумуляторе.

    При регламентных работах на критичных системах мы уведомляем заказчиков. Вообще, мы этого делать не должны (TIER-III и отсутствие влияния на их оборудование позволяют), но у нас всё же ЦОД повышенной ответственности, поэтому считаем хорошим тоном предупреждать. В назначенное время проводится отключение узла резерва, специалисты осматривают его, проверяют, при необходимости чистят, меняют смазку, проводят другие работы.

    Делается это командой эксплуатации, получившей специальное обучение именно под наш ЦОД. Команда состоит из собственных специалистов смен (диспетчеров), а также инженеров, работающих по нормальному графику с выходными и праздниками. Все прошли обучение, кто по дизельным системам, кто по работе с ИБП, кто по вентиляции. В команду могут временно входить специалисты подрядчиков, но всегда в сопровождении нашего инженера (например, из группы выездного обслуживания ЦОДов заказчиков), имеющего соответствующую подготовку, чтобы контролировать работы на месте.

    Заранее прописанный график регламентных работ может меняться в случае выхода узлов из строя — например, если была замена, техосмотр переносится до выработки соответствующего ресурса новым узлом. Но в нашей практике именно на площадке «Компрессор» таких изменений в графике не случалось.

    Команда регулярно проходит переаттестации по электробезопасности и другим отраслевым правилам. Мы регулярно гоняем учебные тревоги «на бумаге» или приводим людей в зал и говорим: «Вышло из строя то-то, что будешь делать?» — и засекаем время. Наши коллеги из 3D-школы уже сделали полный симулятор ЦОДа по фото, скоро мы сможем использовать его для учебных тревог. Ну, или гонять по нему в Counter Strike — пока не решили.

    В ЦОДе развёрнута система мониторинга, которая подключается ко всем узлам и отдаёт их статус на диспетчера. Кроме того, 4 раза в сутки обязателен физический обход и визуальный осмотр оборудования. В случае выхода из строя системы мониторинга есть инструкция по увеличению числа обходов (один раз пригодилась при регламентных работах).

    Действия при аварийной ситуации


    На случай аварийной ситуации есть несколько пакетов инструкций:

    1. У диспетчера в контрольной — аварийный план по шагам, что делать. Он сформулирован максимально просто и однозначно. Например: переключить то-то, убедиться, что загорелась зелёная лампа, переключить то-то, проверить там-то.
    2. Такой же план есть непосредственно около узла, который описывается. В теории инструкцию при критической ситуации может исполнить даже админ (не входящий в команду обслуживания), но на практике обычно у админов нет доступа к инженерным помещениям, плюс у них нет прав на оперативное переключение. Диспетчер же может увидеть инструкцию как на своем рабочем месте, так и около сбойного узла. Одна из частей подготовки диспетчера — наизусть знать, где какой переключатель находится. Тем не менее если он растеряется, рядом всегда есть схема.
    3. У пожарной смены свои инструкции. У них тоже регулярно проводятся тренировки, но главное — на объекте всегда двое пожарных с кислородными масками и специальными костюмами, позволяющими ходить по машзалам в случае возгорания, задымления или пуска газа. Пожарные и другие специалисты не из диспетчерской смены имеют также специальную инструкцию, подразумевающую взаимодействие с другими службами: IT-специалистами, безопасниками и так далее (кто куда бежит, кто с кем разговаривает). Например, при возгорании все должны выбежать из машзала, потому что газ системы пожаротушения эффективно вытесняет кислород и по залу можно передвигаться только в КИП.
    4. У диспетчера есть также схема эскалации на случай аварии: кого оповещать, как быстро, в какой последовательности, если нужно вызывать подрядчиков — кому звонить.
    5. Короткий список телефонных номеров конкретных специалистов, кому звонить в случае возникновения вопросов или нештатных ситуаций, также всегда находится в распоряжении диспетчера. В обычные противоаварийные инструкции схемы эскалации и телефоны мы не добавляем, чтобы сохранить минимальным их объём, всё оформляем отдельными «аварийными конвертами».


    Случаи из практики


    К нам в ЦОД очень часто пытаются пройти с едой или бутылкой минералки. По правилам в машзал и в другие ответственные помещения мы пускаем заказчиков и контрагентов только в сопровождении наших специалистов. Где-то раз в месяц отнимаем яблоко, бутерброд, спорим по поводу верхней одежды (несмотря на холод, по правилам можно заходить только в свитере максимум, и чтобы ничего не торчало и не развевалось). К счастью, люди обычно всё понимают и соглашаются. Если случится что-то нештатное, (например, заказчик попробует занести очень пыльную плату или от заказчика придёт девушка с распущенными волосами до пола), диспетчер будет звонить ответственным и уточнять свои действия по правилам внештатной ситуации.

    Однажды был такой случай. Монтажники оператора связи тянули кабель по городу — по колодцам. Как раз в это время пошёл дождь, и до нашего объекта добралось два комка грязи в сапогах. Эти прекрасные люди вошли в зону контроля и начали оставлять за собой обильный след эктоплазмы, содержащей все детали о маршруте прокладки кабеля. Работы, естественно, пришлось перенести — у них банально не было чистой рабочей одежды.

    Каждый входящий проходит инструктаж. Специалисты заказчика, как правило, — просто о поведении на объекте. Инженерный персонал — дополнительный инструктаж по тем узлам и помещениям, куда направляется человек, и, в частности, про то, как эвакуироваться.

    На «Компрессоре» нештатных ситуаций за всё это время было очень мало, и мы этим гордимся. Из того, что можно вспомнить, стоит, наверное, отметить два случая.

    Первый раз возникли проблемы с подрядчиком при протяжке кабеля. Дело в том, что по опыту примерно сотни построенных и обслуживаемых ЦОДов по всей стране мы знаем, что не бывает идеальных монтажников от провайдера. Раз на раз не приходится, и рано или поздно появляется риск повреждения соседних кабелей при прокладке своих. В «Компрессоре» сделаны отдельные вводы, чтобы каждый оператор связи имел возможность проложить небольшое кольцо по разным кабель-каналам (независимыми маршрутами). Один раз мы поняли, что страховались не зря: недостаточно хорошо обученные монтажники по неосторожности таки надрезали чужой кабель, но всё обошлось.

    Второй раз к нам привезли стойки с пожара — все в саже, со специфическим запахом. Диспетчер среагировал на нештатную ситуацию, мы всё-таки не разрешили заносить стойки в машзал. Во-первых, грязь, во-вторых, запах потенциально опасен – сбивает с толку. Соседних админов он будет просто волновать, а вот наша команда может к нему привыкнуть, а это крайне нежелательно. Газоанализаторы, кстати, на запах не реагируют, только на реально малые следовые количества дыма, поэтому с ними-то как раз проблем бы не было.

    Повторяющиеся работы


    Помещения нужно регулярно убирать. Даже с учётом избыточного давления, уборка — это святое. Есть график, где прописывается помещение и тип работ (сухая, влажная или мокрая уборка), а также регулярность. В зависимости от типа помещения уборку производит либо уборщица в сопровождении инженера или диспетчера, либо наш специалист с допуском. В вайтспейсах уборка делается раз в неделю и строго с ответственными лицами. На инженерных уровнях оборудование при уборке не открывается, а чистится во время планового ТО.

    Раз в неделю делаются запуски дизелей — просто прогоны без нагрузки. Есть ТО дизелей с полной прогрузкой. Процедуры замены топлива нет — оно банально вырабатывается. Кстати, мы всегда заливаем зимнее. Регулярный контроль на воду — специальной пастой проверяется, плюс контролируется сепарация.

    Заносить-выносить оборудование по стандартной процедуре — согласования занимают 1 день. Но в случае выхода из строя укорачиваем этот процесс — не мешаем чинить критичные системы.

    К стойкам и монтажу есть свои внутренние требования. Так, есть контроль аккуратности монтажа (например, важно, чтобы кабель не вываливался из стойки, иначе даже в загородке растёт вероятность зацепа). Вопросов такие требования обычно не вызывают.

    Кабель подводим при заказе стойко-мест, когда понятно, какая куда нужна мощность. Проводится проверка кабеля до и после монтажа. Один раз на другой нашей площадке был случай, когда заказанная катушка приехала, и ещё при размотке монтажники начали подозревать что-то нехорошее. Проверили — да, изоляция не вытягивала по сопротивлению. Пришлось возвращать катушку и ждать новую. Вообще, такие ситуации нередки, кабель сразу после получения обязательно нужно проверять.

    Видеонаблюдение


    В ЦОДе используется как наше обычное видеонаблюдение, так и ставятся камеры заказчиков. Учитывая, что у нас банки, страховые и розница, бывает, что отдельный блок стоек огораживается металлической решёткой и запирается. Внутрь можно попасть только с представителем заказчика. Поэтому все наши системы вынесены за границы такой загородки.

    Чаще всего заказчики размещают свои камеры на стойках, но иногда просят прикрепиться к кабеленесущей конструкции, например. Мы оцениваем местоположение, в частности, проверяем, чтобы в кадр не попадали чужие стойки. Как правило, разрешаем, иногда — с минимальными коррекциями расположения.

    Своё наблюдение ставим в зале заранее. Хоть стойки и разные, но не настолько разные, чтобы нарушать ряды (горячий и холодный коридоры у нас определяются конструкцией здания). Вообще, при планировании размещения оборудования обязательно делается расчёт и несколько согласований по всем подсистемам. Заодно проверяется само оборудование — например, в правильном ли направлении дует стойка, не забирает ли холодный вверху, не выбрасывает ли вниз горячий.







    Ссылки


    Фотоэкскурсия по нашему ЦОДу
    Про инфраструктуру
    Про строительство

    И надеюсь, старая примета про то, что стоит отметить 1000 дней без сбоев и кому-то об этом сказать, как сразу случится поломка, не сработает. Не должна)
    КРОК
    339,57
    IT-компания
    Поделиться публикацией

    Комментарии 17

      +4
      Ну, или гонять по нему в Counter Strike — пока не решили.
      Ссылкой на fy_data_center.bsp не поделитесь?)
        +9
        Лучше de_ (сценарий с бомбой)
        –2
        Жизнь складского помещения, обслуживание складского оборудования. Чем ЦОД отличается от хранилища замороженного мяса? Что тут айтишного-то?
          +1
          Тут мясо живое и нужно вовремя выявлять тех хрюшек, которые начинают заболевать, пока они не заразили других.
            +2
            А на хладокомбинате выяснять дохнущие холодильники не надо? Вообще говоря, там криогенщики (или как их там называют) под статьёй ходят — если они лопухнутся и будет массовое заражение населения, уровень ответственности будет несравнимо выше, чем «ой, у меня вконтактег не открывается».

            В любом случае — задача по обслуживанию складского помещения, не более. Температура, наличие электричества и т.д. и т.п. — обеспечьте условия.

            Вся надёжность всё равно в софте, а не в ДЦ.
              +1
              это даже не смешно
                +1
                Насчёт софта? Разумеется, не смешно. Грамотно спланированная распределённая система априори надёжнее любого ДЦ, и даже любой страны.

                Достаточно посмотреть на DNS — не было ни одного сбоя с момента завершения пусконаладки. Отдельные узлы бывали недоступны, но чтобы целиком весь DNS не работал — такого не было никогда. Хотя падали самолёты, происходили землетрясения, цунами и аварии на АЭС (одновременно), менялись государственные режимы, деньги, начинались и заканчивались войны, атомные державы распадались на кусочки — а DNS продолжал работать.
                  0
                  То есть вы не берете в расчет что некоторым системам важно время отклика, региональное расположение, возможность быстро и дешево доставить своего специалиста на место? Ведь это все учитываетса в смете, это не считая приключений с законодательными органами и местными законами.
                    0
                    Latency важно. Но это к быту тех, кто «одной рукой электричество делает, а другой охлаждает» никакого отношения не имеет. Доставка специалиста… Извините, какого специалиста и куда?

                    У меня текущие сервера, с которыми я вожусь, находятся в штате Даллас, США. Я сижу в городе Лимассол на Кипре. И кроме некоторых лагов из-за большой латенси, никакой разницы с серверами в Нидерландах я не вижу.

                    Я, конечно, не отказался бы от того, чтобы меня «быстро доставляли к серверам» по первому чиху, но суровая жизнь админская говорит mssh `dig -t TXT servers.job +short`, и в бой.
            +1
            Что айтишного в ЦОДе? Очень странный вопрос. Особенно странно слышать его от вебзилы.Написали бы про свой ЦОД. Мы сравним. ;)
              0
              В ЦОДе айтишного не больше, чем в электроподстанции или ГЭС. Про ЦОДы вебзиллы ничего рассказать не могу — ни разу в глаза не видел (Даллас, Сингапур, Хаарлем (Нидерланды), Люксембург, Хайдарабад (Индия)). Я туда по IP хожу. За всё время работы в Вебзилле (~ год) — ни разу не было никаких даунов.

              Наверное, там хорошо работают. Но какое это имеет отношение к ИТ?
                0
                Ну да, какое отношение ГЭС или АЭС имеют к сетям электроснабжения, ведь там только генератор и стоит. ЦОД это концентратор, анализатор и обработчик данных, чем всё ИТ сообщество и занимаетса. Или вы забыли как ИТ в полной версии звучит?
                  0
                  ЦОД — это складское помещение для серверов. Вся «магия айти» происходит не на этапе подключения и отключения резервного питания, или рассеивания в атмосферу лишней пары мегаватт, а в момент, когда тщедушный хипстер кнопочки на своём маке тыкает. Вовсе не внутри машинного зала, а в каком-нибудь старбаксике. Вот push buttons к ИТ привести может. Кручение клемм и чистка фильтров у кондиционера — нет, даже теоретически.
          • НЛО прилетело и опубликовало эту надпись здесь
              0
              Душа для посторонних нет. Да и о спецодежде ни разу вопросов не возникало. Дело в том, что разгрузкой оборудования из машины обычно занимаются грузчики, они в спецодежде. А сами серверы одежду не пачкают, никто их на заводе солидолом не консервирует. Один заказчик использует ячейку для хранения теплых курток – для длительных работ в машзале. Почему-то его сотрудники выполнять настройку из специально сделанной офисной зоны не могут.
              • НЛО прилетело и опубликовало эту надпись здесь
              0
              Скажите, пожалуйста, встречались ли в вашей практике ЦОДы с использованием для охлаждения воды из природных водоемов? В Финляндии таких несколько, у нас не нашел.

              Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

              Самое читаемое