ComBox Nov 25 2019 at 22:57

История одного сервера с пассивным охлаждением

5 min

8.7K

High performance*Manufacture and development of electronics*Computer hardwareArtificial Intelligence

Recovery Mode

+10

Comments 44

smind Nov 25 2019 at 23:25

Как то я ожидал выводов в конце статьи а там бац и всё. Статья незаконченная?

ComBox Nov 26 2019 at 00:19

Отдельно хотим опубликовать тесты инференса на разных типах сетей. Intel NUC8i5BEK показал себя весьма эффективно. В нашем варианте использования это детекция номерной пластины, распознавание номеров и марок моделей ТС. Получилось стабильно обрабатывать 80 потоков RTSP 15 FPS, Full HD. Далее, данные (события) со всех микрокомпьютеров через REST API собираются на едином хранилище.

UFO just landed and posted this here

ComBox Nov 25 2019 at 23:42

Спасибо! Поправили!

IgorPie Nov 25 2019 at 23:45

В масле/охлаждающей неэлектропроводной жиже не пробовали топить? или ограничение по объему?

ComBox Nov 26 2019 at 00:56

Нет смысла. В предыдущих статьях есть обзор применения жидкостного охлаждения для GPU (двухфазное иммерсионное и hot pipes). Там при тепловыделении по 150 Вт и более с каждой карты смысл есть. Здесь, при использовании мобильных процессоров, проще, удобнее и дешевле — воздух.

mm3 Nov 26 2019 at 00:50

я бы прикупил, для обогрева дома зимой, вместо масляного радиатора, сборку из нескольких gpu (или может сразу asic?) с пассивным охлаждением и контролем температуры, да вот только никто не продаёт

ComBox Nov 26 2019 at 01:08

Вопрос в том, чтобы тепло отводить максимально эффективно при наилучшей производительности. Область применения наших решений — это серверные стойки и наружная установка в непосредственной близости от камеры для исполнения нейронных сетей. Варианты интеграции с отоплением были у ASIC'ов с жидкостным охлаждением в пору популярности майнинга, но до серии эти решения так и не дошли.

mm3 Nov 27 2019 at 20:21

А моё желание в том чтобы обогрев был основной функцией устройства с полезным дополнением в виде процессорных мощностей которые даже можно попытаться монетизировать. Эдакий действительно умный обогреватель.

ComBox Nov 27 2019 at 21:00

ASIC'и и системы с водяным охлаждением (подключаемые к системам отопления). Они, в принципе, есть. У нас другие устройств — сервера для стоек и безвентиляторные промышленные ПК для наружной эксплуатации.

Stas911 Nov 26 2019 at 03:35

А в чем смысл использования NUCов? Они вроде не особо шустрые, даже если 8 штук — не проще один нормальный комп взять с топовой картой?

ComBox Nov 26 2019 at 11:42

В том, что они дают минимальную стоимость FPS в инференсе. Получается использовать гибридную схему инференса и параллельно исполнять несколько нейросетей. В нашем случае на CPU — детекция и распознавание номеров, на GPU — классификация марок и моделей ТС. Фактически на 1U мы получили 8 CPU Core i5, 32 физических ядра и 64 потока, 8 GPU для декодинга потоков и инференса. Конкретно в нашей задаче и с топологией сети Darknet19 (YOLO), это аналог сервера на 4 Tesla T4, но с меньшим энергопотреблением и минимум в 2 раза дешевле по стоимости.

Stas911 Nov 27 2019 at 05:31

А стоимость работы по созданию и настройке всего этого добра вы в расчет не включили? Во многих странах день работы инженера стоит сравнимо со стоимостью всего этого железа.

ComBox Nov 27 2019 at 20:54

Включили. Мы поставляем сервер в комплекте с софтом по детекции и распознаванию объектов (марки, модели ТС и номера) или предустановленной ОС Linux. Для дальнейшей работой с группой устройств, вы можете использовать связку Docker, Docker Swarm, Ansible для максимально гибкой и быстрой настройки.

sim2q Nov 26 2019 at 04:56

Как будто выглядит избыточным — вентиляторы на каждый блок. Видимо сделано для возможности замены по блочно о чем написано в тексте. Просится по одной «шпале» на каждую сторону.

ComBox Nov 26 2019 at 11:50

Да, все верно. Вроде, отразили это в тексте. Версия на фото — выставочная. При открытой верхней крышке сервера "шпалы" с вентиляторами (ее достаточно устанавливать с одной стороны) не хватает, так как нарушается поток воздуха. В продакшн версии блок вентиляторов находится на наружной стороне, продувая от холодного коридора в сторону горячего (спереди назад).

0lom5zhdovdv Nov 27 2019 at 01:13

Всё-же на высос с горячей стороны обычно эффективнее, чем на вдув с холодной. Кроме того, если ставить что-то типа этого: FAN-0086L, то Вы бы поместились бы внутри, за счет экономии 4х посадочных мест для вентиляторов возле каждого нук-а

ComBox Feb 3 2020 at 20:27

Спасибо, учтем!

0lom5zhdovdv Nov 26 2019 at 05:47

Я лично видел рак с супермикрами, у которых грелся в дежурке БП, но так как рак был выключен и в дежурке, то продув не работал и блоки прогревали друг друга, т.к. были в одном месте, и верхние блоки падали в ошибку, убирая дежурку, и таким образом сервера не были доступны даже по IPMI… Вот Вам и пассивное охлаждение…

ComBox Nov 26 2019 at 20:33

Здесь уже вопрос условий эксплуатации и своевременного обслуживания оборудования, скорее возникает, чем вопрос проектирования…

0lom5zhdovdv Nov 27 2019 at 00:56

Условия эксплуатации — охлаждаемый датацентр. Просто конкретный рэк был полностью выключен и в дежурке, готовый для новых клиентов. А теперь представьте надеплоить рэк пассивных устройств как у Вас, когда продува то и не предвидится. Я вот к чему.

ComBox Nov 27 2019 at 20:46

Весь сервер потребляет не более 450 Вт. БП — 500 Вт и оснащен системой активного охлаждения, выведенной на заднюю панель сервера. Он, в принципе, не может настолько нагреться, чтобы выйти за рамки рабочего диапазона. В продакшн версии сервера с активным охлаждением — 2 БП по 600 Вт Supermicro с системой активного охлаждения, которая не требует дополнительного (стоечного) продува.

0lom5zhdovdv Nov 26 2019 at 05:49

Сделайте так, чтобы все разъемы/индикация были спереди сервера. Пожалейте тех, кто будет эксплуатировать это дело…

ComBox Nov 26 2019 at 12:00

Согласны, тоже задумывались об удобстве эксплуатации и сделали. На передней части сервера в продакшн версии располагается дисплей, на котором отражается информация по статусу и индикация неисправностей (внутри Nano Pi от FriendlyARM для сбора статистики и управления по GPIO).

ComBox Feb 6 2020 at 14:28

По просьбам трудящихся сейчас выпустили второй ревижен сервера с учетом множества замечаний, о которых вы писали в том числе. Был реализован следующий основной функционал:

IPMI/BMC — мониторинг и управлением компонентами системы;
графический OLED дисплей на передней панели с индикацией текущих состояний каждого модуля NUC, IP-адресами, нагрузки на систему, сообщений об ошибках и сбоях, температур всех и вся, оборотов вентиляторов и т.д.;
быстрая горячая замена (Hot Swap) модулей NUC;
быстрая горячая замена высокопроизводительных вентиляторов;
активное управление вентиляторами по температуре с модулей NUC и дополнительных датчиков входящего и выходящего воздуха;
избавились от обилия сетевых проводов- развели их на плате;
установили два БП с поддержкой Power Management и возможностью горячей замены.

Схема сервера на базе 8 х Intel NUC

lelik363 Nov 26 2019 at 10:57

Как данные попадают в сервер с 8-ю NUCами?

ComBox Nov 26 2019 at 12:08

По сети, вход 3 Гбит (основной и резервный), внутрення маршрутизация между узлами — по 1 Гбит. Пол инференс этого хватает с запасом. 80 потоков по 4 Мбит/сек = 320 Мбит/сек на входе и по 10 потоков на каждый Intel NUC: 4 Мбит/сек * 10 потоков = 40 Мбит/сек.

lelik363 Nov 27 2019 at 09:59

Какие параметры у камеры, что дает 4Мбит/с?

ComBox Nov 27 2019 at 20:39

Full HD, 30 FPS, H.264, CBR

NickViz Nov 26 2019 at 11:11

вообще говоря, сама идея не очень понятна. Iris как GPU довольно хиленькая, одна нормальная видяха от nVidia по идее должна опережать 8 штук нюков.

Вы наверное делали какие-либо сравнения — поделитесь результатами? Почему было выбрано решение «много мелких юнитов» против «один большой с тем же потреблением»? Что бы можно было downscale до одного юнита в IP66?

ComBox Nov 26 2019 at 12:35

Очень многогранный вопрос. Во-первых, все зависит от топологии сети. У нас это Darknet19 (YOLO), сегментация UNET. Аналогичную производительность мы получаем на четырех nVidia Tesla T4, что дороже в два раза и менее выгодно по энергопотреблению. Во-вторых, мы используем гибридный инференс. То есть одна сеть исполняется на CPU (детекция и распознавание номеров), а другая на GPU (классификация марок и моделей ТС). В-третьих, нам нужен аппаратный декодер для обработки входящего видеопотока, чтобы не загружать этим CPU. Таблица сравнений стоимости FPS (стоимость внедрения и стоимость владения) будет в следующем посте. Данные есть в том числе по nVidia GTX, RTX, Tesla, Xavier и другим решениям. Но сейчас не хватает кармы для публикации :(

Intel NUC и другие решения "на краю" мы уже применяем. В нижней части статьи показали Outdoor Box NUC, IP66, климатический модуль, температурный диапазон -40+50. Есть варианты на FriendlyARM Nano Pi M4, Upboard и другие. Выбор конкретных устройств зависит от задачи. Не везде Intel NUC будет оптимальным.

GeBoN Nov 26 2019 at 12:51

Если прям так сильно хотелось безвентиляторный сервак, то вполне логично было бы разместить корпуса вертикально, «на боку», и соответственно поменять направление ребрения радиаторов.
Какой смысл колхозить в серверной такую штуку, если там и так постоянно ревут сотни вентиляторов? Я бы еще понял если бы это для дома.
Себе я собрал в миди-тауэре домашний «сервачёк» (одна «большая» мать, три распберри и 7 дисков) — поставил три тихоходных 140 мм вентилятора на вдув (через фильтра), корпус стоит под давлением — внутри чисто, заодно работает как очиститель воздуха в квартире. С 2-3 метров его уже не слышно, рядом заметно только шуршание воздуха.

ComBox Nov 26 2019 at 16:50

Собственно, так и есть в устройствах наружной эксплуатации. Это линейка Outdoor Box (компактные сервера для инференса на краю). Здесь был, скорее, эксперимент с прицелом на будущее и применением технологий пассивного охлаждения на Нюках восьмого поколения. В рамках стоечного корпуса надеялись на прецизионные системы охлаждения серверных, но при полученном тепловыделении это оказалось невозможным.

Shakhmin Nov 26 2019 at 18:40

А почему использован именно такой микрот? Разве не могла подойти более простая модель?

ComBox Nov 26 2019 at 20:27

Требовался SFP и возможность корректировки правил маршрутизации, плюс он стабилен при пассивном охлаждении (в случае отключения PoE).

DaemonGloom Nov 27 2019 at 06:40

2011|3011 и простые из серии CRS тоже подходят под эти требования, но стоят ещё меньше.

DaemonGloom Nov 27 2019 at 09:11

2011 вычеркните, это я не проснулся. У него только 5 гигабитных портов (+ один sfp). Другие 5 портов — 100 мбит.

ComBox Nov 27 2019 at 20:31

Они кардинально разные. 3011 — температурный диапазон до 40 градусов, 4011 — до 70 градусов. В варианте с пассивным охлаждением в рамках закрытого серверного корпуса это важно. Разница в стоимости 3011/4011 — около 1000 руб. Внутренняя пропускная способность 4011 — 40 Гбит/сек.

0lom5zhdovdv Nov 27 2019 at 01:00

Просто интересно, как часто нуки дохнут у Вас?

ComBox Nov 27 2019 at 02:12

Полная статистика есть по 4-ому поколению Нюков в корпусах наружного исполнения с климатикой. Там около 10% с 2015 года. По 8-ому поколению за 6 месяцев тестовой эксплуатации нет ни одного вышедшего из строя (48 штук работает исправно).

drWhy Nov 27 2019 at 11:22

Процессор себя не даёт перегреть, в отличие от внешнего видеочипа. Вероятно, этим и обусловлен полученный результат.

ComBox Nov 27 2019 at 20:18

Да, верно. Он переходит в тротлинг, т.е. понижает частоту и отключает часть ядер при перегреве. Но это отразится и на быстродействии в том числе. При тестировании устройств (как в серверном исполнении, так и в корпусах наружного применения) мы проверяем устройства на отсутствие тротлинга в процессе эксплуатации, а с работающих устройств собирается статистика (Zabbix, Chronograf), что также позволяет отслеживать тротлинг и температуру по сенсорам.

bzzz00 Dec 21 2019 at 09:23

подскажите как/где изготоавливали радиаторы?

drWhy Dec 21 2019 at 15:16

Вероятно, просто подобрали подходящий. Производство маленькой партии недёшево. Вообще на фрезерах с ЧПУ изготовляют массово то, что невозможно на экструдере.

Show the best of all time