Pull to refresh
0
1cloud.ru
IaaS, VPS, VDS, Частное и публичное облако, SSL

Управление температурой в дата-центре: почему иногда можно и погорячее

Reading time 6 min
Views 8.3K
Сегодня мы поговорим об охлаждении ЦОД. Группа ученых Университета Торонто опубликовала исследование метода охлаждения дата-центров, при котором температуру специально повышают. Мы решили разобраться, в чем суть этой работы и проанализировали ситуацию.

/ фото Emilio Küffer CC

С недавних пор значительная часть потребляемой электроэнергии и выбросов углерода приходится на дата-центры. Огромные мощности тратятся на их охлаждение, что и явилось основным мотиватором для проведения исследовательской работы в области температурного управления. Интересен тот факт, что до конца не понятно, на каком уровне необходимо поддерживать температуру в дата-центрах.

Большинство компаний устанавливает температуру, рекомендуемую поставщиками используемого оборудования, однако не ясно, как её повышение сказывается на работоспособности систем. В то же время, согласно результатам проведенных исследований, повышение температуры всего на 1 градус может сократить энергопотребление на 2-5%.

Именно по этой причине было решено провести исследование и ответить на вопрос, как следует управлять температурой в дата-центрах? Для этого был собран обширный набор данных о производственном оборудовании, который позволил изучить влияние температуры на рабочие характеристики аппаратуры, включая надежность подсистемы хранения данных, подсистемы оперативной памяти и сервера в целом.

Предисловие


Хотя увеличение температуры в дата-центре выглядит самым простым способом сэкономить электричество и снизить выбросы углерода, здесь возникают несколько проблем: одна из них – это возможное снижение надежности работы системы. К сожалению, подробной информации о влиянии высоких температур на работоспособность серверов очень мало, более того, она весьма противоречива.

По результатам одних исследований установлено, что каждые 10°C после 21°C увеличивают вероятность отказа электроники на 50%. В других работах сказано, что каждые 15°C повышают частоту отказов жестких дисков в два раза, а в своем недавнем исследовании компания Google установила, что низкие температуры, наоборот, еще больше вредят работе запоминающих устройств.

С повышением температуры в дата-центрах возникает еще одна проблема, связанная со снижением производительности серверов. Дело в том, что когда температура достигает критической отметки, процессор входит в режим дросселирования тактов (тротлинг), а кулеры начинают вращаться с увеличенной скоростью – все это приводит к дополнительным утечкам мощности и повышению энергопотребления.

Температура и надежность


Давайте сперва обратим внимание на два особых компонента аппаратного обеспечения – это жесткие диски и DRAM, поскольку в современных дата-центрах они заменяются наиболее часто.

Температура и ошибки в скрытых секторах жесткого диска (LSE)

LSE – это один из самых распространенных видов ошибок, когда отдельные секторы диска становятся недоступными, а хранимые на них данные теряются (если система не обладает избыточностью и не может их восстановить). 3-4% всех дисков сталкиваются с LSE, и эти цифры только растут, поскольку растут доступные емкости.

На надежность работы аппаратуры влияет огромное количество факторов (нагрузка, влажность, перепады напряжения, обслуживание устройств), мы разбили результаты, полученные для каждой модели, по дата-центрам. Довольно очевидно, что с повышением температуры увеличивается и вероятность возникновения LSE. Однако увеличение происходит гораздо медленнее, чем предполагают стандартные модели оценки (например, модель, основанная на уравнении Аррениуса). Считается, что между температурой и количеством ошибок существует экспоненциальная зависимость, что ведет к удвоению частоты отказов за каждые дополнительные 10-15°C.

Ученые провели статистический анализ и выяснили, что более высокие температуры не увеличивают количество LSE, если диск уже подвержен LSE, а это говорит нам о том, что причины возникновения ошибок в скрытых секторах одинаковы как для холодных дисков, так и горячих. При этом частота возникновения LSE для одной модели диска может изменяться от дата-центра к дата-центру.

В известном нам диапазоне, а именно от 0 до 36 месяцев, старые диски имеют такую же вероятность столкнуться с LSE, как и новые. Ученые измеряли степень нагрузки по чтению количеством выполняемых операций в месяц и относили диск в группу с низкой степенью нагрузки, если оно [количество операций] оказывалось меньше медианы для представленного набора данных (в противном случае – в группу с высокой нагрузкой). На основе анализа полученных данных они заявили, что степень использования диска не влияет на вероятность возникновения LSE при повышении температуры.

Температура и отказы дисков


Цель этого раздела – рассмотреть вопрос о том, как температура влияет на частоту отказа дисков. Чтобы получить наиболее полный ответ на этот вопрос, было учтено влияние рабочей нагрузки, а также различия между моделями дисков и дата-центрами. На основе данных по 5 различным моделям запоминающих устройств, собранных в период с января 2007 года по май 2009 года и предоставленных 19 различными дата-центрами Google.

Для температур ниже 50°C частота отказа дисков растет гораздо медленнее, чем предполагают классические модели. Увеличение числа отказов с ростом температуры незначительно. Следуя той же методологии, как в случае с LSE, группы дисков были разбиты по степени загруженности и возрасту – как оказалось, ни тот, ни другой фактор в значительной степени не влияют на частоту дисковых сбоев.

Влияние температуры на производительность


Чтобы изучить влияние температуры окружающей среды на производительность серверов, ученые соорудили испытательный стенд с термальной камерой. Термальная камера была достаточно большой, чтобы уместить внутри целый сервер, и позволяла нам контролировать температуру в диапазоне от -10°C до 60°C с точностью 0,1°C.

Для проведения эксперимента был выбран один из самых популярных серверов – Dell PowerEdge R710. Он имеет четырехъядерный процессор Intel Xeon 5520 с частотой 2,26 ГГц, 8 МБ кэша третьего уровня, 16 ГБ DDR3 ECC и работает под управлением Ubuntu 10.04 Server с ядром Linux 2.6.32-28-server. К нему были подключены жесткие диски (SAS и SATA) от разных поставщиков.

В ходе работы была проведена серия нагрузочных тестов с использованием микробенчмарков и макробенчмарков, разработанных для моделирования рабочей нагрузки, которую создают реальные приложения. Использованные бенчмарки и методики: STREAM, GUPS, Dhrystone, Whetstone, случайная запись/случайное чтение, последовательная запись/ последовательное чтение, OLTP-Mem, OLTP-Disk, DSS-Mem, DSS-Disk, PostMark, BLAST.

У всех SAS-дисков и одного SATA-диска (Hitachi Deskstar) наблюдается некоторый спад в производительности на высоких температурах: от 5-10% до 30%. Принимая во внимание тот факт, что для всех моделей спад происходит в одном и том же температурном диапазоне (а не в произвольный момент), и ни один из дисков не сообщил о возникновении ошибок, можно считать, что причиной деградации производительности является включение защитных механизмов записывающих устройств.

Увеличение энергопотребления сервера


Увеличение температуры воздуха, поступающего к электронному оборудованию, может оказывать влияние на количество рассеиваемой энергии. Многие IT-фирмы начинают увеличивать скорость вращения кулеров, когда температура окружающего воздуха достигает определённого порогового значения.

Хотя количество потребляемой энергии под различными нагрузками сильно меняется, оно начинает возрастать, когда температура окружающей среды достигает 30°C, и увеличивается вплоть до 40°C. Рост потребляемой энергии составляет 50% – это очень много.

Здесь можно с уверенностью сказать, что перепады в энергопотреблении связаны с вентиляторами: увеличение скорости вращения происходит на тех же значениях температуры, на которых повышается энергопотребление. Таким образом, с ростом температуры окружающей среды повышается количество потребляемой энергии, что по большей части связано с увеличением скорости вращения кулеров. Утечки энергии чрезвычайно малы.

Выводы


Увеличение температуры в дата-центрах потенциально может сэкономить огромное количество средств на электроэнергию и снизить углеродные выбросы. К сожалению, не до конца понятно, с какими трудностями это связано, поэтому многие дата-центры стараются поддерживать в помещении низкую температуру. Температура оказывает гораздо меньшее влияние на надежность работы аппаратуры, чем предполагается: ошибки связанные с DRAM и выходом из строя серверных узлов слабо связаны с высокими температурами.

Эти воодушевляющие результаты позволяют обратить внимание на другие моменты, связанные с температурой, например, на увеличение энергопотребления отдельно взятых серверов при росте температуры поступающего к ним воздуха. В ходе исследования было установлено, что это связано с увеличением скорости вращения вентиляторов системы охлаждения. Утечки мощности в этом случае совершенно незначительны. Большинство этой энергии тратится напрасно из-за плохо составленных алгоритмов контроля скорости вращения кулеров.

Однако здесь не все так просто, чтобы можно было дать какие-то общие рекомендации или предсказания о том, какой должна быть температура в дата-центре, и о том, сколько энергии можно сэкономить. Ответы на эти вопросы зависят от слишком большого количества факторов, имеющих отношение к местоположению дата-центра и его предназначению. Однако мы видим, что большинство организаций могут немножко «разогреть» свое оборудование, при этом не жертвуя производительностью и надежностью системы.
Tags:
Hubs:
+10
Comments 0
Comments Leave a comment

Articles

Information

Website
1cloud.ru
Registered
Founded
Employees
31–50 employees
Location
Россия