Повышаем надежность дата-центра! (фото с тепловизора внутри)

    Практически все аварии в правильно спланированных дата-центрах предсказуемы и могут быть выявлены на стадии «до аварии». Но как заранее понять куда «подстелить соломки»? Под катом наш опыт повышения надежности дата-центра на ул. Пришвина (e-Style Telecom).

    Инфраструктура дата-центра должна обслуживаться и проверяться, а отключения, конечно же, при этом не допустимы. Как этого достичь?
    Как устранить потенциальную проблему еще до того, как она сможет влиять на работоспособность системы?

    Реальная надежность дата-центра в нашей стране определяется всего тремя факторами:
    1. степень пофигизма и глупости проектировщиков-строителей ЦОДов;
    2. внешними рисками по компании, помещению и подключениям;
    3. степенью беспечности и разгильдяйства сотрудников дата-центра.

    Благодаря болезненному и дорогому опыту, основанному на своих и чужих ошибках, мы смогли обнаружить значительное количество недочетов и глупости на этапах планирования, проектирования и оснащения дата-центра. И, что самое главное, вовремя их устранить.

    По рискам компании, помещению и подключениям все получилось – здание и трансформаторные строилось «для себя», все в собственности, а наша компания в одном из крупнейших IT холдингов – R-Style / e-Style.

    Осталось только обеспечить грамотное обслуживание и эксплуатацию… легко сказать! Как? Наши шаги на этом пути:

    Первый шаг, базовый: две параллельные системы мониторинга, общий интерфейс SNMP, изолированная сеть управления. Абсолютно все оборудование дата-центра e-Style Telecom было оснащено /доукомплектовано средствами самодиагностики и мониторинга. Информации уже хватало, чтобы понять текущее состояние систем.

    Второй — дополнительно добавлены сотни датчиков температуры (в разных точках аппаратной, в разных зонах). Стало намного информативней, распределение мощностей и температур, изменения при переключении блоков кондиционеров. На этом этапе мы смогли уже не в слепую «по проекту» размещать новое оборудование, а видеть и сравнивать реальную тепловую картину и планировать загрузку аппаратной.

    Третий – регулярно проводить обследование инфраструктуры и серверного оборудования тепловизором. Когда нашли этот метод – очень обрадовались. Тепловизор позволяет оперативно получить много информации для анализа.
    Аккумуляторы, клемы, соединения, диски в СХД, провода, фильтры, вентиляторы, воздушные потоки, переток воздуха между коридорами – теперь видно заранее. После каждого обхода, как правило, что-то подозрительное выявляется и устраняется. Сегодня, например, обнаружили повышенную на 7 градусов температуру кабеля в одном шкафу – клиент запитал 5кВт нагрузки через один кабель, игнорируя другие розетки в PDU.

    Снимок холодного коридора, в котором сразу видны шкафы без оборудования в нижней части, через которые идет переток воздуха из горячих коридоров.


    Инженер в холодном коридоре:


    Снимок блейда IBM, с равномерно нагруженными лезвиями:


    Снимок аккумуляторного шкафа во время тестирования батарей:






    Кабели электропитания в шкафах:


    Избыточное выделение тепла очень часто является хорошим предсказанием возможных проблем, главное вовремя увидеть. Мы сделали, что смогли, чтобы знать заранее куда «подстелить соломки».
    Share post
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 10

      0
      Такое ощущение, что я читал уже в прошлом эту статью. Возможно даже на хабре…
        0
        да да, было дело, у крока вроде
          0
          Да, уже было про использование тепловизоров в датацентрах.
            +1
            если вы про то как крок аудит по замершей соляре делал… то как-то совсем не про это. Мы написали наш опыт многолетней эксплуатации ЦОД, а крок и прочие – построили, ушли… а сломается – придут денег за аудит получать, другое это дело немного. Крок один раз кому-то что-то обследовал, а у нас 2 раза в неделю все оборудование изучается.
            0
            Отлично. Еще бы немного о существующих предложениях, перспективных технологиях и теории было бы к месту:)
              +2
              Если такую прикрутить на робот-пылесос, можно заставить его обходить ДЦ и снимать статистику постоянно. Заодно приберётся. Полученные фото анализировать, в случае нахождения критичных точек — сигнализировать администрации.
                0
                Только пускать их нужно хороводами по нескольку штук, чтобы друг за другом следили:)
                  0
                  Тогда уж гексопода из соседнего топика, только чтобы еще по стенам и потолкам умел ползать :)
                    0
                    Мечтательно: и тогда совсем как в матрице заживём, лепота!
                    0
                    Вообще на одной из АЭС есть похожая приблуда, как часть системы пром. телевидения. Ездит себе камера по заданному маршруту и меряет температуру и шум, если есть отклонения относительно прошлого обхода — вякает оператору на панельке.

                  Only users with full accounts can post comments. Log in, please.