Как мы упоролись по энергоэффективности машзала



    Посвящаю этот пост тем людям, которые врали в сертификатах, из-за чего мы чуть было не установили у нас в залах бенгальские огни.

    Истории больше четырёх лет, но публикую сейчас, потому что закончился NDA. Тогда мы поняли, что загрузили дата-центр (который сдаём в аренду) почти полностью, а энергоэффективность у него что-то не очень улучшилась. Раньше гипотеза была в том, что чем сильнее мы его заполняем, тем лучше, потому что инженерка распределяется на всех. Но оказалось, что мы себя в этом плане обманывали, и при хорошей загрузке где-то были потери. Работали мы по многим направлениям, но наша отважная команда занялась охлаждением.

    Реальная жизнь дата-центра — это немного не то, что в проекте. Постоянные докручивания от службы эксплуатации для повышения эффективности и оптимизация настроек под новые задачи. Вот взять мифическую среднюю стойку. На практике её не бывает, по нагрузке распределение неравномерное, где-то густо, где-то пусто. Вот и пришлось кое-что перенастроить для лучшей энергоэффективности.

    Наш дата-центр Компрессор нужен для самых разных заказчиков. Поэтому там посреди обычных двух–четырёхкиловаттных стоек может оказаться вполне себе 23-киловаттная или больше. Соответственно кондиционеры были настроены на то, чтобы охлаждать их, и через менее мощные стойки воздух просто проносился мимо.

    Вторая гипотеза была в том, что тёплый и холодный коридоры не смешиваются. После замеров могу сказать, что это иллюзия, и настоящая аэродинамика отличается от модели примерно всем.

    Обследование


    Сначала мы начали смотреть воздушные потоки в залах. Почему туда полезли? Так как понимали, что ЦОД рассчитан на пять-шесть КВт на стойку, но знали, что они по факту от 0 до 25 КВт. Регулировать всё это плитками почти невозможно: первые же замеры показали, что они почти одинаково пропускают. А плиток на 25 КВт вообще не бывает, они должны быть не просто пустыми, а с жидким вакуумом.

    Купили анемометр и начали мерить потоки между стойками и над стойками. Вообще с ним надо работать по ГОСТу и куче стандартов, трудно выполнимых без остановки машзала. Нас интересовала не точность, а принципиальная картина. То есть замерили примерно.

    По замеру из 100 процентов того воздуха, который выходит из плиток, в стойки попадает 60 процентов, остальное пролетает мимо. Это из-за того, что есть тяжёлые стойки на 15–25 КВт, по которым выстроено охлаждение.

    Взять и притушить кондиционеры мы не можем, потому что на тёплых стойках в районе верхних серверов будет совсем тепло. В этот момент мы понимаем, что надо что-то от чего-то изолировать, чтобы воздух не прыгал из ряда в ряд и чтобы термообмен в блоке всё же происходил.

    Параллельно с этим задаёмся вопросом, целесообразно ли это финансово.

    С удивлением обнаруживаем, что энергопотребление ЦОДа в целом у нас есть, а вот посчитать фанкойлы по конкретному залу мы просто не можем. То есть аналитически можем, а по факту — нет. И оценить экономию мы не в состоянии. Задача становится интереснее и интереснее. Если мы сэкономим 10 % мощности кондиционеров — сколько можно денег отложить на изоляцию? Как считать?

    Пошли к автоматизаторам, которые допиливали систему мониторинга. Спасибо парням: все датчики у них были, надо было только дописать код. Они стали выводить отдельно чиллеры, ИБП, освещение. С новой приблудой появилась возможность смотреть, как меняется ситуация по элементам системы.

    Опыты со шторками


    Параллельно начинаем опыты со шторками (загородками). Решаем крепить их на штыри кабельных лотков (больше всё равно не к чему), благо они должны быть лёгкими. С навесами или гребёнками определились быстро.





    Засада в том, что мы до этого работали с кучей вендоров. У всех есть решения для собственных ЦОДов компаний, но для коммерческого ЦОДа готовых решений нет по сути. У нас заказчики заезжают и выезжают постоянно. Мы один из немногих «тяжёлых» ЦОДов без ограничения по ширине стойки с возможностью принимать вот эти сервера-молотилки до 25 КВт. Никакого планирования инфраструктуры заранее. То есть если мы будем брать модульные системы кейджинга вендоров — всегда будут дыры на два месяца. То есть никогда машзал не будет энергоэффективным в принципе.

    Решили делать сами, благо у нас есть свои инженеры.

    Первое, что взяли, — ленты от промышленных холодильников. Это такие гибкие полиэтиленовые сопли, которыми можно ушатать. Вы их наверняка видели где-нибудь на входе в мясной отдел самых крупных продуктовых. Стали искать нетоксичные и негорючие материалы. Нашли, купили на два ряда. Завесили, стали смотреть, что получается.

    Понимали, что будет не очень. Но получилось вообще очень прямо очень не очень. Они начинают, как макароны, развеваться на потоках. Нашли магнитные ленты типа как магниты на холодильник. Наклеили их на эти полосы, приклеили друг к другу, стена получилась в меру монолитная.

    Начали прикидывать, что будет на зал.

    Пошли к строителям, показываем свой проект. Те смотрят, говорят: шторки ваши что-то очень тяжёлые. 700 килограммов по всему машзалу. Идите, говорят, добрые люди, к чёрту. Точнее, к команде СКС. Пусть считают, сколько у них там лапши в лотках, потому что 120 кг на квадратный метр — максимум.

    СКС говорят: помните, к нам приехал один крупный заказчик? У него десятки тысяч портов в одном зале. По краям машзала ещё нормально, но ближе к кроссовой крепиться уже не выйдет: лотки отвалятся.

    Ещё строители попросили сертификат на материал. Отмечу, что мы до этого работали на честном слове поставщика, поскольку это был всего лишь тест-прогон. Обратились к этому поставщику, говорим: ОК, готовы выйти в бету, давайте все бумажки. Они присылают нечто не очень установленного образца.

    Мы говорим: слушайте, а где вы эту бумажку взяли? Они: это нам наш китайский производитель в ответ на запросы прислал. По бумажке эта штука не горит вообще.

    В этот момент мы поняли, что пора останавливаться и проверять факты. Идём к девчонкам из пожбезопасности ЦОДа, они называют нам лабораторию, которая проверяет горючесть. Вполне земные деньги и сроки (правда, мы прокляли всё, пока составляли нужное количество бумажек). Там учёные говорят: привозите материал, будем делать тесты.

    В заключении было написано, что из килограмма вещества остаётся пепла примерно на 50 граммов. Остальное ярко горит, стекает и очень хорошо поддерживает горение в лужице.

    Понимаем — хорошо, что не стали покупать. Начали искать другой материал.

    Нашли поликарбонат. Он оказался более жёстким. Прозрачный лист — два мм, двери — из четырёхмиллиметрового. По сути, это оргстекло. Вместе с производителем начинаем разговор с пожаробезопасностью: давайте сертификат. Они присылают. Подписан тем же институтом. Мы звоним туда, говорим: ну чего, мужики, у вас такое проверяли?

    Они говорят: да, проверяли. Сначала у себя пожгли, потом только на тесты принесли. Там из килограмма материала остаётся (если горелкой его жечь) примерно 930 граммов пепла. Он плавится и капает, но лужа гореть не будет.

    Сразу же проверяем наши магниты (они на полимерной подкладке). На удивление горят плохо.

    Сборка


    Из этого начинаем собирать. Поликарбонат прекрасен, потому что он легче полиэтилена, куда хуже гнётся. Правда, привозят листы 2,5 на 3 метра, и поставщику плевать, что с этим делать. А нам надо 2,8 шириной 20–25 сантиметров. Двери отправляли на конторы, которые режут лист как надо. А ламели порезали сами. Сам процесс реза стоит раза в два дороже, чем лист.

    Вот что получилось:



    Итог — система кейджинга окупается меньше чем за год. Это мы сэкономили по 200–250 КВт постоянно на мощности фанкойлов. Сколько-то ещё на чиллерах, сколько точно — не знаем. Серваки всасывают с постоянной скоростью, фанкойлы дуют. А чиллера включаются и выключаются гребёнкой: из неё данные сложно вытащить. Останавливать машзал нельзя для тестов.

    Радуемся, что в своё время было правило ставить в модулях 5х5 стоек так, чтобы их среднее потребление было шесть КВт максимум. То есть тёплое не сосредоточено островом, а распределено по машзалу. Но есть ситуация, где 10 штук 15-киловаттных стоек рядом, но там напротив — сторадж. Он холодный. Балансируется.

    Где нет стойки — нужна загородка до пола.

    А ещё у нас некоторые заказчики изолированы решётками. С ними тоже было несколько особенностей.

    На ламели резали, потому что ширина стоек нефиксированная, а периодичность гребёнки креплений определена: три-четыре см или вправо, или влево всегда будет. Если у тебя блок 600 под стойкоместо, то он с вероятностью 85 процентов не встанет. А короткие и длинные ламели сосуществуют и склеиваются. Иногда режем ламель буквой Г по контурам стоек.



    Датчики


    До того как уменьшать мощность фанкойлов, надо было настроить очень точный мониторинг температуры в разных точках зала, чтобы не словить сюрпризов. Так возникли беспроводные датчики. Проводные — на каждый ряд надо вешать свою штуку для кроссировки этих датчиков и иногда на неё — удлинители. Это превращается в гирлянду. Очень плохо. И когда эти провода заходят в клетки заказчикам, безопасники сразу возбуждаются и просят объяснить с сертификатом, что там по этим проводам снимается. Нервы безопасников надо беречь. Беспроводных датчиков они почему-то не трогают.

    И ещё стойки приезжают-уезжают. Датчик на магните проще перемонтировать, потому что его каждый раз надо вешать выше или ниже. Если серверы в нижней трети стойки — надо вешать вниз, а не по стандарту на полтора метра от пола на двери стойки в холодном коридоре. Там мерить бесполезно, надо мерить то, что в железе.

    Один датчик на три стойки — чаще можно не вешать. Температура не отличается. Опасались, что будет перетягивание воздуха сквозь сами стойки, — не случилось. Но мы всё равно даём чуть больше холодного воздуха, чем расчётные значения. Сделали окошечки в ламелях 3, 7 и 12, над стойкой делаем отверстие. В него при обходе ставим анемометр: смотрим, что поток идёт куда надо.



    Потом повесили яркие ниточки: старая практика для снайперов. Выглядит странно, но позволяет сдетектировать возможную проблему быстрее.



    Забавное


    Пока мы всё это молча делали, приезжал вендор, который производит инженерку для ЦОДов. Говорит: давайте мы приедем и про энергоэффективность расскажем. Приезжают, начинают рассказывать про неоптимальный зал, воздушные потоки. Мы понимающе киваем. Потому что у нас три года как установлено.

    Они на каждую стойку вешают по три датчика. Картинки мониторинга зашибенные, красивые. Больше половины этого решения в цене — софт. На уровне «алерт в Заббиксе», но проприетарный и очень дорогой. Засада ещё в том, что у них есть датчики, софт, и дальше они ищут подрядчика на месте: нет своих вендоров на кейджинги.

    Выясняется, что их руками стоит в пять–семь раз дороже, чем мы сделали.

    Ссылки


    КРОК
    447,38
    IT-компания
    Поделиться публикацией

    Комментарии 27

      +21
      Вдумчивый напиллинг с элементами колхозинга — залог получения требуемого результата и практически единственный способ кастомизации готовой системы под собственные хотелки, что и требовалось доказать.
      Спасибо, очередная хорошая статья.
        +3
        Ниточки напомнили т.н. «колдунчики» на парусах, назначение у них схожее. Хорошая статья!
          +1
          И у планеристов.

            0
            Pavel_Goryunov, а не было случая, чтобы эта ниточка оторвалась/отклеилась и намоталась на кулер главного сервера важного заказчика?
              0

              Когда остановившийся кулер — проблема, то у меня для вас плохие новости.

                0
                Остановившийся кулер — это сработавший триггер/ивент в системе диагностики. А дальше регламентные мероприятия, в зависимости от традиций предприятия. Кто-то забивает до следующего регламентного ТО, а кто-то устраивает цирк с конями, срочным заказом у вендора и выездом целой комиссии во главе с безопасниками.
                  –1
                  Так там наверное датчик открывания сработал, вот безопасники и прибежали.
            +1
            Проверяли/анализировали, что со всем этим будет при срабатывании АГПТ?
              +1
              Анализировали. Кондиционеры прогоняют через себя весь объем воздуха машзала дважды в минуту. Так что для АУГПТ это не проблема.
              +2
              Здорово! Можете рассказать что за беспроводные датчики температуры использовали и как конфигурировали при переносе?
                +1
                Датчики мы использовали собственной разработки. При переносе датчиков особых переконфигураций не требовалось. Важно учесть изменение точки размещения датчика.
                  +2
                  Деталей не сможете раскрыть? Какой датчик температуры, способ передачи? Просто любопытно что было выбрано и по каким соображениям.
                    0
                    Поддерживаю вопрос!
                    Если не секрет — прошу статью!
                      0
                      Датчики и систему к ней разрабатывала наша команда, занимающаяся IoT решениями, поэтому некоторые «секреты фирмы» раскрыть не смогу. Но температурный датчик подбирался, чтобы обеспечивать достаточно высокую точность показаний (±0.3 °C) в нужном диапазоне температур. Это дополнительно контролируется собственной процедурой калибровки. Сама передача происходит в ISM диапазоне с ретрансляторами для «тёмных» углов, т.к. должна быть обеспечена достаточно большая площадь покрытия. Один машинный зал это примерно 500кв.м. И как следствие изначальное требование было от 50 до 200 датчиков на один зал, которые бы одновременно могли работать без влияний друг на друга. Также ещё немаловажным критерием была автономное время работы таких датчиков. Сейчас один датчик без замены может проработать три года с частотой отправки раз в 30 секунд.
                        0
                        Спасибо!
                      0
                      Хотя бы расскажите про протокол на базовом уровне. Частота, количество датчиков, mesh/точка-точка/lora, и так далее. Очень интересно.
                    0
                    Идём к девчонкам из пожбезопасности ЦОДа, они называют нам лабораторию, которая проверяет горючесть. Вполне земные деньги и сроки (правда, мы прокляли всё, пока составляли нужное количество бумажек). Там учёные говорят: привозите материал, будем делать тесты.
                    Не совсем понял, что мешало самостоятельно поджечь и посмотреть на вполне предсказуемые результаты? И только в случае необходимости документально их фиксации — после обращаться в лабораторию? Дешевле, проще, и быстрее.
                      +11

                      Я так понимаю, никто не ожидал что поставщик настолько обманет.

                        +6
                        Мы доверились специально обученным людям, которые могут сделать эту работу комплексно.
                          0
                          Ниточки они тоже проверяли?
                          +5
                          Наверное, те, кто выдавал «сертификат» так и сделали: попробовали поджечь зажигалкой и написали, что совсем не горючее.
                            +2
                            Алгоритм действий:

                            Поджигаем -> горит -> ищем другой материал;
                            Поджигаем -> не горит -> сдаем в лабораторию.
                              +5
                              Аудиторы могут не понять — почему материал закупили и списали. Внешний документ в этом плане лучше котируется.
                                +1
                                Если я правильно понял, это была тестовая закупка. Проверить материал, да обкатать технологию. Вот и проверили.
                                +7
                                Поджигаем -> не горит -> сдаем в лабораторию.

                                Потому-что в реальных пожарах температура в центре пожара — поднимается до очень высоких температур (зависит от горючего). Поэтому сымитировать самостоятельно(кустарно) настоящее горение при пожаре — не получится, а значит, в любом случае придется сдавать в лабораторию.
                                  0
                                  А если материал просто вспыхнет? Вы тоже понесете его в лабораторию?

                                  Когда вы контролируете работу других людей — не вопрос. Вы не можете на бумажке просто написать «материал горючий, ищите другой». Вам нужен документ. Когда же это ваши личные поиски и эксперименты. Когда вы отвечаете сами перед собой. Почему нет?

                                  Перед закупкой и установкой обязательно надо было сдать в лабораторию. С этим ни кто не спорит. Но почему нельзя просто попробовать пожечь до?
                            0
                            На фотографиях ничего не понятно, слишком крупный план.
                            Было бы совсем классно хоть один абзац почитать как там это всё устроено.
                            Откуда этот воздух дует, сверху или снизу или сбоку. Я вот к сожалению вообще не знаю как устроено охлаждение в машинных залах, хотя очень любопытно. Всё что я себе до этого представлял это обычные кондиционеры на стенах. ((

                            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                            Самое читаемое