ngcloud 15 апр в 12:10

ЦОДы, GPU, NVIDIA A16, охлаждение: о серьезных вещах простым языком

5 мин

1.3K

Блог компании NubesIT-инфраструктура*Компьютерное железоИскусственный интеллектIT-компании

Обзор

Добрый день, дорогой читатель. Меня зовут Селезнев Павел, я инженер второй линии поддержки в облачном провайдере Nubes. С каждой новой статьёй я расту в должности, поэтому пишу ещё одну :-)

Несколько месяцев назад нам с коллегой поставили задачу: провести сравнительные тесты, чтобы проверить, насколько сильно разогреется видеокарта под нагрузкой при использовании воздуха и диэлектрической жидкости.

Об этих тестах я и расскажу в статье, которая должна пролить свет на жизнь GPU в ЦОДе.

Предисловие

Как понятно из названия статьи, речь пойдёт о жизни GPU в контексте ЦОДа (центра обработки данных), проведённых тестах разных вариантов охлаждения и выводах, к которым пришла наша команда по итогу этих самых тестов и рассуждений.

Тестировали мы GPU NVIDIA A16 в течение нескольких дней.

На момент написания материала в нашем ЦОДе реализована система охлаждения посредством использования прецизионных кондиционеров, а в качестве хладагента — фреон.

Данная система представляет собой большие промышленные шкафы (кондиционеры), которые беспрерывно охлаждают нагретый оборудованием воздух с помощью того самого фреона. На картинке упрощённо показан процесс теплообмена.

В своей практике я видел и другие системы: водяные кондиционеры, контуры охлаждения на гликоле, чиллерные установки, рассеивающие тепло. О них тоже можно поговорить отдельно.

Ещё чуть-чуть и перейдём к тестам

Как я и сказал, нам поступила задача проверить рабочие температуры при использовании иммерсионного охлаждения — технологии жидкостного погружения.

Основа принципа не сильно отличается от воздушного охлаждения. Движение охлаждающего вещества (хладагента/иммерсионной жидкости/диэлектрической жидкости) происходит также естественно под действием конвекции (движения тёплых, холодных масс) и также с использованием дополнительных насосов в контуре (тепло рассеивается на внешних блоках). Оборудование полностью погружено в жидкость, исключая контакт с внешней средой.

Также из особенностей отметим, что для монтажа стенда требуется специальная погружная стойка и сервер. У подобного оборудования предусмотрены специальные отверстия для лучшей циркуляции охлаждающей жидкости. Плюс ко всему требуется дополнительная подготовка видеокарты перед подобным использованием — снятие радиаторов и кулеров (если говорить про любимые многими RTX 4090 и подобные). Из-за этого, прошу заметить, пропадает гарантия на оборудование.

Спецификация

Так вот, нам дали возможность пощупать что-то новое и провести сравнительный тест охлаждения под нагрузкой, к результатам которого я так долго подводил.

Спецификация и сухие цифры ниже.

У нас имеются:

- NVIDIA A16

Архитектура графического процессора: NVIDIA Ampere.
Базовая частота чипа графического ускорителя: 1312 МГц.
Число универсальных процессоров: 5120.
Объём памяти: 64 Гб.
Тип памяти: GDDR6.
Частота видеопамяти: 12500 МГц.
Система охлаждения: пассивная.
TDP: 250 Вт.

- 2 среды

Воздушная.
Жидкостная (в нашем случае был полимер).

- Софт для нагрузки видеокарты

Aida64.
Furmark.
Hashcat (нагрузили перебором словарей).

- Нагрузка и наблюдение за картами в течение 4 дней по 24 часа в сутки

- Самое интересное — иммерсионная жидкость

Используется диэлектрическая охлаждающая жидкость, полимер низкой вязкости ДОЖ1.
Горючесть 600 градусов в открытом тигле.
Температура рабочего диапазона -60С +180С.
Срок службы не менее 10 лет.
Уровень испаряемости низкий, поэтому подливать не нужно (если система не даст течь).
Расчётный механический PUE 1.06.

Тесты

Скрины по результатам тестов ниже.

Воздушное охлаждение

Жидкостное охлаждение

Общая статистика: в таблицу собрал средние значения (то есть среднее по всем четырём ядрам).

Воздушное охлаждение

Без нагрузки	Aida	Furmark	Hashcat	Среднее под нагрузкой (среднее из 3х тестов)	Наибольшее значение в пике (пик зафиксированный в тесте)
45,88	81,63	86,4	85,1	84,28	92,32

Жидкостное охлаждение

Без нагрузки	Aida	Furmark	Hashcat	Среднее под нагрузкой	Наибольшее значение в пике
29,05	55,1	58,24	57,16	56,8	60,38

Итоги теста

На практике была доказана более высокая эффективность использования жидкостного охлаждения.

Зачем оно всё было надо

На данный момент технологии ИИ развиваются бурно, и для обучения или использования искусственного интеллекта требуются вычислительные мощности. Получается, что ИИ = GPU.

Видеокарты, создание инфраструктуры и её поддержание в рабочем состояние – дорого. Поэтому GPU из облака выглядит довольно «вкусно», особенно предприятиям/компаниям/ИП, которые хотели бы «пощупать» карты в тесте (у нас, например, это 14 дней) или интегрировать ИИ в работу без постройки масштабных комплексов и дополнительных затрат.

Так зачем делали тесты-то? Всё ещё непонятно.

Раз ресурсы GPU востребованы на рынке, то, если один облачный провайдер хочет конкурировать с другими, в своём арсенале эти карточки обязательно нужно иметь. Nubes хочет предоставлять GPU-as-a-Service в большом количестве.

Большое количество графических процессоров – это много тепла и повышенная нагрузка на кондиционеры, которые работают… правильно, от электричества. Оно растёт в цене, следовательно, увеличиваются расходы на эксплуатацию. Жидкостное же охлаждение требует меньше энергии, и это весомая причина рассмотреть такой вариант.

Какие выводы мы сделали

Иммерсионное охлаждение — лучший холод, что, в свою очередь, увеличивает срок эксплуатации оборудования. Да и ёмкости с минеральным маслом шумят меньше, чем кондиционеры. Ещё один существенный плюс — иммерсионное решение не требует «особой» подготовки места: наличие фальшполов для циркуляции холодных воздушных масс, создание изолированных коридоров, место под кондиционеры.

Всё круто, всё здорово, но подходит такой вариант охлаждения не всем, и есть у него ряд существенных «но».

Во-первых, как уже было сказано, для использования такого вида охлаждения нужна подготовка видеокарты. Потребуется снятие термоинтерфейсов и системы воздушного охлаждения. Из-за этого теряется гарантия карточки. Для co-location, например, такой вариант не очень подходит.

Во-вторых, для иммерсионного охлаждения используются специальные сервера, которые по производительности RAM и CPU уступают дефолтным аналогам. Публичное облако на них построить можно, но вариант не приоритетный. Также погружные стойки, которые мы видели, рассчитаны всего на 26U, то есть на 26 позиций для серверов. Под заказ, конечно, сделают и больше, но стандартное решение у ТК «Связь» именно 26U.

Стойка для жидкостного охлаждения ТК «Связь»

В-третьих, жидкостное охлаждение не исключает необходимость установки внешних блоков для отвода тепла и резервирования электропитания.

В общем, вывод такой: технология есть, она эффективная, но далеко не во всех случаях. И нужно взвешивать плюс и минусы, ну и, конечно же, считать выгоду.

Надеюсь, вам было интересно. Оставляйте свои мысли и вопросы в комментариях.

Хабы: