Обновить

PCIe, водянка и райзеры: реальный опыт сборки сервера под 5 GPU дома

Время на прочтение6 мин
Охват и читатели11K
Всего голосов 11: ↑11 и ↓0+14
Комментарии16

Комментарии 16

Если говорить про бюджетную сборку, то ИМХО водянка нафиг не нужна, корпус можно было из алюминиевых уголков собрать, а ля майнинг ферма, обшить чем-нибудь листовым. ССД - самые дешевые китайские, главное объем побольше - они по сути расходником будут. Двухпроцессорная мать не нужна, лучше на Epic - у него много PCIe+ 8 канальная память, эта конфигурация будет в NUMA упираться, если что-то делать на CPU

про водянку - воздушное охлаждение не вмещалось в корпус
про корпус - он поедет в ЦОД, поэтому такой собрать я не мог
ССД - вот страшно брать китайские, поэтому решил взять надёжные
про мать мне нечего сказать, она просто одна из самых дешёвых куда можно поставить 5 карт

Я конечно не знаю, но с такой водянкой в ЦОД пустят?

Коротко: да

Длинно: я сам не в восторге, что пришлось ставить водянку. Год сервер стоял с полноразмерными башнями. Затем я взял наклонные(top-flow). По размеру наклонная без кулеры прям идеально вписывалась, но тогда не получилось бы райзеры тянуть. Взял ExeGate ESNK-0049.PWM.1U.2011/66.Cu. Он недостатачно охлаждал. После поиска активного единственное, что вышло найти, это водянку.

Водянке этой сам не доверяю, при первой возможности заменю на что-то более удобно. А так, пока что не спрашивали про неё в ЦОДе, поэтому проблем не возникло

Водянка, я уж думал там кастом, пару контуров на процы и видяхи, а тут какие то необслуживаемые две хрени, да еще и на древнем железе!

Заголовок стоит поменять!

У вас действительно красивый корпус)

Но, самостоятельно делать СЖО для закрытого сервера немного страшно. Банально, нету компетенций и из-за этого высок риск протечек.

Я доверяю СЖО закрытого типа больше, чем самостоятельной сборке

А расскажите про софт, который используете! Как задействуете 2х RTX4060ti? Цель MultiGPU ведь обойти ограничение в объёме VRAM, а не получить параллельную работу нескольких моделей?

В нашем случае задействовано все 5 карт. И в нашем случае часто ограничение не только в обходе VRAM, но и чтобы было больше вычислительных ресурсов. Больше гпу = больше экспериментов. Эксперимент - проверка гипотезы по исследованию.

Для оркестрации между девайсами используем accelerate.

Также, сейчас размечаем гигантский объёмы русской речи с помощью нашего пайплайна https://arxiv.org/pdf/2507.13563

Больше карт позволяют запустить больше моделей.

Для инференса ЛЛМ, когда действительно нужно больше VRAM для модели используем vLLM

Для обучения и файнтюна ЛЛМ используем HuggingFace Trainer, но под его капотом также accelerate

4 GPU setup
4 GPU setup

1.5 года назад собирал для себя тоже для экспериментов и инференса своих моделей под ЦОД. Тоже пришлось возиться с башней. Поменял на меньшую притык в 1мм был зазор с башней. Но водянку в ЦОД не пускали. Но уже работает без перебоев уже год в ЦОД. Надо скоро пасты поменять и обслужит. С размерами было проблема тоже, с Китая было долго. По 70$ стоили райзера. По GPU RTX 4060 TI 16GB и RTX 3060 12GB

Но в основном для инференса 2х разных моделей так что vRAM был нормально.

Но думаю через пол года заменить их на 5060 16гб. По сравнению с арендой Tesla t4 у Яндекса окупили себя за 2-3 месяца

У меня не такой большой опыт в серверном железе, но тоже недавно захотел что бы мой пк мог потянуть локальную нейросеть, основная проблема в деньгах. Ни финансирования ни своих средств нету и пока я только на этапе проектирования. Да и комп будет стоять дома. Не хотелось бы что бы он дико шумел как сервер.

Для корпуса думал взять phanteks enthoo pro 2, меня в нем только толщина стенок смущает. Жесткие диски планировал подключать через рэйд контролер и объединять их в рейд. Для моих маленьких задач надеюсь хватит, а если он поможет диплом написать будет вообще отлично

Спасибо за статью было интересно почитать, одного не понял - в чем смысл использовать жидкий металл для наружного применения? Я про нескальпированные процессоры. Особенно для ЦОДа где важна надежность.

Статья про ЖМ https://habr.com/ru/articles/374331/

Использовали жидкий металл, потому что у него лучше теплопроводность. Это единственная причина.

Про подводные камни, если честно, не слышал, изучу этот момент

Неужели специализированная плата типо supermicro X10DRG-Q настолько дорога?

Если честно, не слышал про неё. Сейчас нашёл и действительно - хороший вариант.

Увы, материнская плата от артефакт от первой сборки. В целом, за года с ней проблем не было.

Из координальных отличий - нет слотов для M2. конечно, можно вставить в pci свободные, но их всего два.

А разве всех pci слотов на такой матери+процы хватит для раскрытия мощи видеокарты? Я когда хотел собрать на работе сервер с парой 5090 для больших моделей воткнулся в упор по pci каналам

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации