Pull to refresh
102.73
CloudMTS
Виртуальная инфраструктура IaaS

Системы ИИ оптимизируют охлаждение ЦОД

Reading time4 min
Views2.5K
Год назад мировые дата-центры потребляли 2% всей генерируемой на планете электроэнергии. По прогнозам аналитиков, эта цифра вырастет до 5% к 2020 году. При этом примерно половина всей этой энергии расходуется на охлаждение. Эти затраты и призваны сократить системы ИИ.

Сегодня поговорим о последних разработках в этой области.


/ фото The National Archives (UK) CC

Проект Google


В 2016 году DeepMind и Google разработали систему искусственного интеллекта, которая мониторила отдельные компоненты ЦОД. Она давала администраторам в дата-центре рекомендации о том, как оптимизировать энергопотребление серверов. Решение позволило сократить энергозатраты на работу систем охлаждения на 40% и снизить коэффициент PUE на 15%.

По словам операторов ЦОД, подсказки машинных алгоритмов были полезны в работе, но на их обработку уходило слишком много времени. Поэтому Дэн Фюнффингер (Dan Fuenffinger), один из инженеров Google, предложил полностью передать интеллектуальным решениям управление системами кондиционирования. Это должно было разгрузить операторов дата-центра, так как тем пришлось бы проводить только тонкую настройку и контролировать весь процесс.

Последующие два года компания совершенствовала свою систему ИИ, и теперь она полноценно управляет охлаждением серверных залов. Например, машинный алгоритм «догадался», что зимой холодный воздух сильнее охлаждает воду в чиллерах, и воспользовался этим, чтобы оптимизировать расход электроэнергии. Это сократило энергозатраты еще на 30%.

В Google считают, что их разработка и ее аналоги в дальнейшем помогут владельцам ЦОД снизить расходы на системы охлаждения как минимум в два раза и снизить выбросы CO2 в атмосферу.

Как это работает


Всю систему охлаждения в дата-центре компании мониторят тысячи физических датчиков. Данные с них поступают на вход системы ИИ, развернутой в облаке. Это нейросеть из пяти скрытых слоев с 50 нейронами в каждом.

Она работает с 19 различными параметрами, среди которых числится общая нагрузка на серверы, количество работающих водяных помп, влажность воздуха на улице и даже скорость ветра. Каждые пять минут система считывает показания датчиков (это приблизительно 184 тыс. сэмплов — для обучения сети нужны были 70% из них, а оставшиеся 30% использовали для перекрёстной проверки) и использует их для оптимизации значения PUE.

Она строит список прогнозов, как то или иное изменение в системе повлияет на энергопотребление дата-центра и температуру в машинном зале. Например, изменение температуры «холодного» коридора может вызвать колебания нагрузки на чиллеры, теплообменники и помпы, что, как результат, приведет к нелинейным изменениям в производительности оборудования.

Из составленного списка выбираются наиболее эффективные действия, которые сильнее других снизят энергопотребление и не приведут к сбоям в работе ЦОД. Далее, эти инструкции направляются обратно в дата-центр, где локальная система управления еще раз проверяет, соответствуют ли они требованиям безопасности (и их реализация не приведет к непоправимым последствиям).

Поскольку на системы ИИ переложили часть ответственности за бесперебойную работу сервисов вроде Google Search, Gmail и YouTube, разработчики предусмотрели ряд защитных мер. Среди них числятся алгоритмы расчета показателя неопределенности. Для каждого из миллиардов возможных действий система ИИ проводит оценку достоверности и сразу отсеивает те из них, у которых этот показатель получился низким (то есть с высокой вероятностью сбоя).

Другим методом защиты стала двухуровневая верификация. Оптимальные действия, рассчитанные алгоритмами МО, сравниваются с набором политик безопасности, прописанным операторами ЦОД. Только если все в порядке, в работу систем кондиционирования вносятся изменения.

При этом операторы всегда готовы отключить «автоматический» режим и взять управление на себя.

Похожие разработки


Компания Google не единственная, кто разрабатывает решения на базе машинного обучения для управления системами охлаждения в ЦОД. Например, компания Litbit работает над технологией Dac для мониторинга потребляемых вычислительных ресурсов и электроэнергии.


/ фото reynermedia CC

Чтобы следить за состоянием оборудования Dac использует IoT-сенсоры. Система может «слышать» ультразвуковые частоты и «ощущать» аномальные вибрации пола. Анализируя эти данные, Dac определяет, все ли оборудование работает правильно. В случае возникновения неполадок, система оповещает администраторов, формирует тикет в техподдержку и даже самостоятельно отключает «железо» (в критической ситуации).

Похожее решение создает Nlyte Software, которая объединилась с IoT-командой IBM Watson. Их система собирает данные о температуре, влажности, потреблении электричества, загруженности оборудования в дата-центре и дает инженерам советы по оптимизации рабочих процессов. Решение работает как с облачной, так и on-premise инфраструктурой.

Внедрение систем ИИ в дата-центрах позволит выйти за рамки привычных DCIM-решений (программных продуктов для мониторинга ЦОД). Среди экспертов ИТ-индустрии есть мнение, что в скором времени большинство процессов, протекающих в ЦОД, будет автоматизировано. В результате администраторы в дата-центрах смогут сконцентрироваться на других, более важных задачах, влияющих на рост и развитие компаний.



P.S. Материалы по теме из Первого блога о корпоративном IaaS:

Tags:
Hubs:
+11
Comments6

Articles

Information

Website
cloud.mts.ru
Registered
Founded
Employees
201–500 employees
Location
Россия