mikprin Mar 25 2021 at 20:01

Собрать сервер для глубокого обучения за пол ляма может и ребенок. Или нет?

12 min

33K

twin3d corporate blogServer Administration*Computer hardwareDIY

+37

100

Comments 100

mSnus Mar 25 2021 at 20:39

Два вопроса:
1) зачем ему 2Тб SSD? Там нужен быстрый ввод-вывод и большой объём?

2) а нельзя эти вычисления не в один комп грузить, а распараллелить по сети?

mikprin Mar 25 2021 at 20:46

Очень логичные вопросы на самом деле, но специфика вот какая.

1. Поскольку модель собирается из сотен фотографий, каждая из которых в RAW формате. Одно фото может весить до 10 МБ. Один кадр это 150-200 фотографий, ибо именно столько камер на стенде. То есть только одно 3D фото в исходнике это почти гигабайт данных. Ну а учитывая что таких фото много и работать с ними нужно быстро, то хочется много места. Даже если у нас уже есть свой NAS.

2. В основном из-за лицензий. Для обработки используется дорогостоящее ПО. Хочется чтобы несколько пользователей могли бы одновременно запускать вычисления с использованием одной лицензии, и не тратить время на администрирование нескольких компьютеров. Кроме того GPU сейчас тоже не дешевые. Хочется использовать их максимально эффективно. Ну и наконец многие привыкли использовать ноутбуки, и удобно было бы всем работать в одном месте. На одной станции.

Примерно так же крупные компании по разработке IC поступают с САПР для разработки интегральных схем кстати. Опять же специфика это десятки тысяч евро на лицензию, а так же что все одновременно могут редактировать один чип в режиме реального времени.

mSnus Mar 25 2021 at 20:50

Понял, спасибо, интересные задачи у вас!
Не очень понял, вроде тут распределенные вычисления (если ПО позволяет) были бы логичнее, да и расширять проще. Или в ПО нет возможности загрузить видеокарты, фактически подключенные по сети, а не по PCI? Если не секрет, что за ПО?

AlexanderS Mar 26 2021 at 14:19

Да это распространённая практика когда лицензии всяких инженерных САПР привязываются к железу конкретного компа. Хочешь сетевую многопользовательскую версию — плати дороже, иногда существенно дороже. А если хочешь распределённые вычисления… таких либо нет, либо это уже совсем кровавый энтерпрайз и цена будет соответствующая.

andrey78910 Sep 2 2021 at 22:57

Все же, для быстрой работы с большими файлами нужно было взять PCI-e диск, в процессе работы вы точно почувствуете разницу против sata диска.

mikprin Sep 2 2021 at 22:57

Так всегда можно добавить!

x67 Mar 25 2021 at 20:50

Ну например для хранения датасета. Если датасет большой, гонять его по сети может быть не очень удобно
Более чем уверен, что если подсчитать экономику сего мероприятия, то окажется, что использовать облачные вычисления выгоднее.
Более того, я скорее расстроился от статьи, так как если уж назвали себя техдирами и датасатанистами, будьте добры сначала посчитать, прежде чем писать статью. Да даже если выбор был эмоциональный (а так оно и есть для всех участников), просто ради интереса стоило подискутировать на тему экономики.
А уж если обозначили свои цели, то еще и обосновать нужно такое ограничение пиковых нагрузок. Ну вдруг вам быстро надо будет обучить очень тяжелую модель. Или много моделей. Ну не хватает мощи. Если бы у вас были деньги, вы бы легко масштабировались. А тут у вас трактор. Он едет, хорошо едет, но в город за кофем на нем не поедешь.

-2

mikprin Mar 25 2021 at 20:55

Ну вот мы посчитали и поняли что нет. Аренда такого сервера лишь по процессорной мощности это 30-40К в месяц + видеокарта еще доплачивается отдельно. Масштабируемые мощности (где платишь за вычисления) может быть и дешевле по началу, но со временем все равно не окупаются, да и их администрирование и перенос данных сложнее. Если же добавить сюда запрос на работу с GUI, то ситуация еще больше склоняется к тому, чтобы держать комп именно в локальной сети из за пинга.

А так да. Анализ экономики был, может быть стоило об этом написать.

msidiagnos Mar 25 2021 at 21:11

Одну машину можно и в облако, наверное. Вы учитывает только затраты на само железо. Затраты на облако через несколько месяцев перебьют стоимость сервера, это очевидно. Но есть и другие расходы (ваш же труд по поддержке и прочее).

Нам, например, сложнее, у нас одна расчётная нода в яндекс облаке обошлась бы в 125к, а у нас их 4, плюс сервер с 28 расчетными нодами поменьше, плюс сервер с 4*Tesla v100 и 4 гипервизора с виртуалками.

mikprin Mar 25 2021 at 21:17

Ну вот сейчас кажется, что для разработки и запуска обработки, при наших потоках людей и темпах хватает именно такого сетапа. Собственно потенциал в увеличении количества GPU это наш залог масштабируемости в разумных пределах.

Kekushiftkey Mar 25 2021 at 21:46

Ожидал увидеть Nvidia Tesla/Quadro, почему не они?

mikprin Mar 25 2021 at 21:50

Даже при том, что цены на игровые карты взлетели на порядок, если брать цену за карту с 24Gb памяти RTX3090 стоит сейчас 280К против 400 у соответствующей Quadro. Мы брали RTX3090 за 220К, что почти в два раза дешевле даже при очень высоком спросе. В итоге даже учитывая результаты тестов, «профессиональные» карты не дают таких приростов в производительности, чтобы оправдать свою цену. Может сейчас в них и есть смысл, но это скорее исключение. Еще в декабре ты мог взять три RTX 3090 против одной Quadro с 24GB памяти. А результаты теста отличаются там точно не в 3 раза.

uanet Mar 27 2021 at 00:29

Цены на квадры, наверняка, тоже взлетели. Но если вы таки упрётесь в троттлинг из-за памяти (оно не троттлит, если в помещении то ли +7С, то ли -7С...) — оно будет обидно.
Да, чтоб не троттлило — ориентировочно температура ГПУ держаться около 56С должна. У «обычной» 3080. Температуру памяти оно не рисует, оно просто опускает частоту ГПУ до смешной (эдак менее 1000МГц — и 700МГц бывало с родными прокладками). И это всё — при зажатом TDP.
И ещё — у меня в гигабайте 3080 — на ГПУ было намазано 0 термопасты, но температуры были макс 63С. Заменил термопрокладки на 12W, размазал по гпу намазанную вокруг термопасту — всё «полетело», при 100% TDP — 81C, не хватает вертушек. Майнит 97MH/s -227Вт, 63С, 84% вентиляторы — шумно, 91MH/s — 200Вт, 74% — уже «не очень слышно». Это при разделении потоков и притоке «свежего» воздуха ~20C.
В играх нвидия читерит — память часто пашет на половинной частоте.

Нужно не забывать, что каждый чип памяти GDDR6x — 10Вт. Майнерам эфира сейчас бы 6ГБ версии нужны были, 24ГБ — это лишних 180Вт тепла (и эффективность на уровне 1000-й серии).
Для «вывести 200Вт тепла из корпуса» — нужен 2500об/ми 120х25мм кулер. 38мм — можно отвести 300Вт. Итого вашу «шарманку», кажется, спасают только турбины. Но и там не лишним будет убедиться, что эти стационарные фены для волос выдувают только из корпуса. Опустить TDP у 3090 вряд ли выйдет — ибо он общий для памяти и чипа, но стоит попробовать. Можно поиграться с кривыми у MSI Afterburner (ctrl+f).

UFO just landed and posted this here

Dvlbug Mar 26 2021 at 18:30

А когда у тебя только пару серверов, то хватит и такого. Не всем требуются сервера за несколько миллионов для работы. Для автора, даже если возникнут проблемы с системой простой в полдня никого не убьет, ну не будет полдня тренироваться нейросеть

UFO just landed and posted this here

chupasaurus Mar 26 2021 at 03:01

del.

d2ab Mar 25 2021 at 23:10

Неудачный пример «Купить сервер вроде такого.» Такой сервер стоит дорого не потому, что в него можно поставить 8 видеокарт (кстати нельзя, только 3, и то однослотовые), а потому что в него можно установить 68 Hotswap SAS дисков. А уж пример из первого абзаца "(https://www.gigabyte.com/Enterprise/GPU-Server)" действительно будет стоить полмиллиона, только не рублей. И описание процесса сборки… как-то действительно на уровне ребенка.

mikprin Mar 26 2021 at 00:31

Возможно я прикрепил ссылку не на конкретно этот сервер (может тот забрали уже), но мне кажется ваш Ответ на 100% прокомментирует вот это видео: https://youtu.be/Z76QDISZlBQ

JayK Apr 1 2021 at 07:11

Есть НЕБОЛЬШОЙ нюанс, для рэкового сервера в котором 4+ мощных видеокарт, ОБЯЗАТЕЛЬНО наличие помещения с температурой воздуха 19 градусов, и полное отсутствие пыли, они спроектированы с учетом этих факторов. В обычном офисе оно сначала вскипит, затроттлит памятью, а потом вообще нажрется пыли и помрет. Ну и шум, нет ШУМ, там пятнадцатитысячные кулера стоят.

KorDen32 Mar 25 2021 at 23:40

если добавить поддержку ECC памяти

Небуферизованная ECC-память неофициально поддерживается практически всеми Ryzen (единственное, не очень понятно про APU без приставки PRO) на материнках ASRock, ASUS, Gigabyte. Не поддерживается на Biostar, MSI и некоторых старых Gigabyte.

В Linux обработка ошибок корректно логируется, в Windows не всегда и не везде.

Если бы я докупал бы память, то выбрал бы что, то такое.

И получили бы неработающий сервер. Ryzen и Threadripper не поддерживают Registered ECC, это удел EPYC. А ECC unbuffered достаточно мало — либо Kingston Server Premier, либо аналогичные у Micron.

mikprin Mar 26 2021 at 00:23

Да. И правда. Я вставил не ту ссылку. Я нашёл довольно выгодную не буферизованную память, а потом закрыл вкладку. А когда статью писал мне показалось что это та самая. А это версия буферизованная. Я поправлю этот момент. Но тут действительно просто не та ссылка.

mikprin Mar 26 2021 at 00:51

Вот эта память там должна была быть: www.e-katalog.ru/SAMSUNG-M391A4G43MB1-CTD.htm

Daddy_Cool Mar 25 2021 at 23:45

Собирал я как-то нечто суперкомпьютерное с кучей видеокарт для расчета гидродинамики. Знакомые ребята предложили за 2 млн. руб., причем не стесняясь прислали смету где указали что почем и сколько они берут себе, я сказал, что подумаю, дружественная контора могла сделать за 1.5 млн, что мне тоже не очень понравилось, в результате собирал всё самостоятельно и удовольствие обошлось меньше чем в 1 млн. Было несколько лет назад, поэтому точные цены/конфиги уже неактуальны.

lleo_aha Mar 25 2021 at 23:55

Двойственное ощущение от статьи. Вроде и проблема нужная-важная, но вот все эти «питание как бы бензин но нет», «процессор потребляет 12 вольт» и прочие «pci шоссе» — как то уж правда для детей

mikprin Mar 26 2021 at 00:10

Ну по моему опыту очень многие кто собирают ПК не понимают как именно нужно рассчитывать линии питания, и что такое фазы питания процессора. Как человек который все это разрабатывает, мне не всегда понятно какой уровень объяснения был бы адекватен. Если бы это было совсем легко, и я мог бы все как есть рассказать, то люди наверное бы это все шарили.

Muzzy0 Mar 26 2021 at 22:47

Какие фазы на постоянке?

UFO just landed and posted this here

sa1ntik Mar 31 2021 at 10:16

Устоявшийся термин, который применяется относительно питания всяких мощных низковольтных устройств вроде ЦПУ и ГПУ.
Применяется по аналогии с *фазная цепь переменного тока, но только на постоянку.
Суть: допустим у вас процессор кушает 100Вт (ИРЛ чуть меньше обычно) при напряжении питания 1В (ИРЛ чуть выше). Нехитрые расчёты дают нам понять, что при таких раскладах нам надо каким то образом через материнку организовать токовую дорожку, которая бы пропускала 100А и ещё и ещё мощный VRM и рассеивалку тепла с него. Это, мягко говоря, крайне сложно реализуемая инженерная задача. Ещё и крайне дорогая, так как рост стоимости будет не линеен, а пропорционален мощности в квадрате(или кубе, смотря на что).
Поэтому значительно проще поставить 10 VRM, снизить токи через каждый из них до 10А и опустить требования к размерам дорожки на МП с безумных 100А до 10А.
Но в таком случае возникает вопрос: как нам тогда называть получившуюся схему питания с группой условно несвязанных VRM (кстати да, иногда девайсы продолжают работать при потере одного/нескольких VRM).
И вот тут нам (как и англоговорящим) на помощь приходит термин «фаза». В итоге получается «фаза питания (процессора) n».

Lennonenko Apr 1 2021 at 13:57

дополню предыдущий ответ
помимо подводимой мощности часть проблемы в том, что напряжение не совсем постоянное, которое может дать, к примеру, батарейка, из-за ШИМ-природы, постоянно присутствуют колебания вокруг результирующей, и не всё получается сгладить дросселями
поэтому и применяется многофазное питание, в разных линиях фаза немного смещена, чтобы пики одной приходились на провалы другой
вот тут всё подробно и просто

UFO just landed and posted this here

mikprin Mar 26 2021 at 00:09

Решили отвергнуть виртуализацию. Сейчас поставил manjaro. Ибо нужно обязательно GUI для некоторых приложений. Но на XFCE графика почти ресурсов не отнимает.

egusev Mar 26 2021 at 01:23

И зря. Виртуализация даёт изоляцию базовой системы от клиентов.
Не понятна логическая цепочка от XFCE к manjaro. Почему не убунта/дебиан/центось?

mikprin Mar 26 2021 at 01:56

Виртуализация это боль с точки зрения проброса GPU

Убунта/Дебиан это версионность, а она с моей точки зрения уходит в прошлое для систем аля рабочая станция. Центос банально нужный софт не поддерживает. Это больше серверное решение. Хотя он очень стабильный и классный. Но у Арча подкупает удобство и обьем AUR. Попробуйте, это очень удобное семейство систем.

egusev Mar 26 2021 at 02:20

Если клиенты линуксы — то вообще никакой боли нет. Если винда — один ньюанс и тоже без проблем.
Если изолируете базовую систему, то версионность и апдейт базовой системы вообще не будет напрягать. Будете вспоминать об этом когда версия дистра уйдет в олд-стейбл.
А для клиентов бубунта самое то — на все что надо есть ppa

-3

AlexanderS Mar 26 2021 at 14:24

Но у вас же серверный процессор! У интелов с VT-d с пробросом видеокарты проблем не возникало. У AMD есть AMD-V, я с ним просто никогда не сталкивался — там проблемы с пробросом PCIe?

UFO just landed and posted this here

AlexanderS Mar 26 2021 at 15:10

Если у вас QUADRO, то проблем нет. А вот с обычными карточками nVidia, конечно, гадит как может. Лет 5 назад проблема решилась одной строчкой в конфиге ВМ, причём это вроде как уже известное всем решение было.

UFO just landed and posted this here

AlexanderS Mar 27 2021 at 12:00

Ну так одна строчка кода и все работает. Нет тут особых танцев с бубном или каких-нибудь ритуальных длинных конфигов. Просто это уже такой общеизвестный древний костыль, про который вроде бы уже все знают и который без проблем гуглится.

BD9 Apr 5 2021 at 05:41

NVIDIA Now Allows GeForce GPU Pass-Through For Windows VMs On Linux
GeForce GPU Passthrough for Windows Virtual Machine (Beta)
С ограничениями.

dorne Mar 27 2021 at 01:18

Хорошо все с визуализацией. Юзаю систему на AMD EPYC ROME с двумя GPU. Оба проброшены в ВМ, — одна с Линуксом, другая с Виндой. Все прекрасно работает практически из коробки со стандартными костылями для НВидии (сокрытие виртуализации от гостя). Причем на стоковой Убунте 18.04 (с hwe ядром).

dorne Mar 27 2021 at 01:47

Добавлю только, что при переходе с Intel на AMD (без переустановки Убунты) больше всего проблем было от костылей, которые раньше были вставлены именно для Intel-овских процессоров и vt-d. Возврат к «коробочным» настройкам KVM все решил.

dorne Mar 28 2021 at 04:33

визуализацией

Виртуализация на самом деле. Автоматический спэлл-корректор подгадил(((

uanet Mar 27 2021 at 00:38

Виртулизация — кайф с точки зрения привязки к железу. Т.е. если на соответствие лицензии — чихать, можно хоть 100 серверов на 1 лицензию повесить. Ну чуть поизголяться с прокси и т.п., может понадобится.

В целом — не понимаю, куда столько мощи. Лет 5 назад видел на выставке кучу камер на каркасе (вокруг объекта), делали статуэтки с тобой или чем поставишь на 3д-принтере. не пахло там такими мощностями…

algotrader2013 Mar 26 2021 at 00:44

Спасибо, интересно, но, как человек, как имевший опыт в написании кода под CUDA для монте-карло симуляции, так и участвовавший в создании сервера для работы этого кода в проде, так и не понял, откуда столь догматичная уверенность в том, что
1) слабый процессор вполне ок (а 12 ядер, это, увы, слабый процессор)
2) нехватка лейнов это вообще не ок
3) слабый SSD (даже не NVMe) это ок

Очевидно, что лейны нужны для передачи данных между камнем и картой. Очевидно и то, почему майнерам хватает одного лейна (у них камень лишь раздает задания и получает результаты), а геймерам надо все и сразу (текстуры протолкнуть в карту).

А вот в Вашем случае, не зная архитертуры, я вижу несколько вариантов, но все они противорячат Вашим требованиям
1) Ваш софт поднимает огромный объем данных с диска (или записывает после обработки), после чего гонет его в карту без преобразования на CPU, после чего карта делает быструю операцию, сопоставимую по скорости с подъемом данных -> лейны нужны ок, проц слабый ок, ваш SSD не ок. Нужен NVMe, а лучше много NVMe. Скорость SATA SSD на порядки ниже скорости пропихивания данных через лейны в карту. Ваша шина будет простаивать. Чтобы напихать четыре карты хотябы в половину пропускной способности, Вам надо около 30GB/s поток данных с диска или сети. Просто представьте на минутку себе такой поток. Я видел почти, но все же меньший поток на 4х процессорном сервере с батареей из датацентровых NVMe. Он обслуживал аналитическую СУБД, и обошелся владельцу в $70K. Да и то, подобный поток там возникал предельно редко, и, ограничь пиковый поток раза в 4, обшая производительность системы упала бы не более, чем на 5%.
2) Ваш софт делает тяжелое задание, по времени сильно большее, чем пропихивание данных в карту, и/или сохранение на диск после работы -> вам лейны не нужны. Берете майнерский риг с 1 PCI lane per GPU и вперед. Как никак, не надо думать, что такой конфиг это совсем убого. Это около 1GB/s на карту, то есть, перфоманс двух ваших дисков. Получаете предельно эффективное соотношение cost for GPUs/total cost.
3) Ваш софт делает небольшое поднятие данных с диска, значительное раздувание объема поднятых данных на CPU и быструю операцию на GPU. Тогда диск ок, лейны нужны, CPU не ок. Вы, скорее всего, не сможете 12-ядерным камнем накормить все карты и станут в очередь за заданием.

Вообщем, я отлично понимаю Вас, как человек, любящий железо и возню с ним, и не приемлющий конфигураций, которые рубят теоретический перфоманс на корню. Но, считаю, раз речь идет о бизнесе, при чем не об абстрактном создании «суперкомпьютера под столом» для абстрактного заказчика, то, как минимум, надо рассуждать не категориями

тогда как показывает практика, например, для игр, при использовании восьми линий, она теряет 5% производительности, а при использовании четырех — уже около 20-30% или больше.

а провести тесты, взять Excel и попробовать накидать калькулятор производительности вашего софта, учесть реальные потребности в потоках данных диск->проц, проц->карта, карта->проц, проц->диск.

mikprin Mar 26 2021 at 00:50

Да, тесты можно было бы и провести.

SSD согласен, можно было взять один обычный и один NVME. Хотя по моему опыту, скорости SATA уже достаточно для комфортной работы. А в данном случае выбирая что-то одно выбрал бы объем. Хотя учитывая цену железа и правда нужно будет добавить NVME.

Процессор слабый по какому критерию? По скорости, или по количеству потоков? По количеству потоков он слабый в случае, если будет работать одновременно много человек. С какой именно задачей мы столкнемся, что нам не хватит этого процессора?

Тесты производительности уже проведены. Я цифры привел прямо с первых результатов запроса в гугл. Зачем мне их повторять?

V1RuS Mar 26 2021 at 02:33

Процессор слабый по какому критерию? По скорости, или по количеству потоков? По количеству потоков он слабый в случае, если будет работать одновременно много человек. С какой именно задачей мы столкнемся, что нам не хватит этого процессора?

Я так понял, слабый по обоим параметрам — в том случае, если понадобится полностью использовать пропускную способность PCI-E шины к видеокартам. Диск слишком медленный, так что единственный способ — как-то генерить данные процессором.

Если же это не предполагается, то выходит, что проц (и материнскую плату) с большим количеством линий PCI-E купили зря.

mikprin Mar 26 2021 at 03:55

«Диск слишком медленный, так что единственный способ — как-то генерить данные процессором.» Не очень понял эту мысль. Это взаимодополняющие, а не замещающие компоненты.

algotrader2013 Mar 26 2021 at 11:25

Мысль очень простая, — вы утверждаете, что хотите иметь 16 PCI лейнов на карту (вашими словами, 16 полосную автостраду по процессора для каждой карты). Это даёт пропускную способность в около 16 гигабайт в секунду на одну карту. Раз вам это надо, значит есть, где такой поток данных вне карты получить. Диск вам выдаст 1/32 этого потока. Значит, не диск. Ещё есть вариант 100G ethernet, но он тоже не упоминается.
Значит, данные будет генерировать процессор по некоторым алгоритмам. Если вы берете 4 карты, то на каждую идёт аж 3 ядра. Вопрос, как Вы собираетесь с 3х ядер генерировать такой поток?

UFO just landed and posted this here

algotrader2013 Mar 26 2021 at 13:46

Думал об этом. Но, не похоже на такой кейс, ибо, в таком случае во главе угла стояло бы количество карт на один хост, а автор к этому относился довольно свободно. Ибо, межхостовое соединение сопоставимых скоростей с даже PCIE x4 стоит очень дорого и тоже отнимает PCI лейны.

UFO just landed and posted this here

mikprin Mar 26 2021 at 03:57

Ну на самом деле диск в любом случае будет относительно частот процессора медленным. Поэтому все в память и выгружается.

egusev Mar 26 2021 at 00:52

У вас впереди еще столько интересного :)
Давайте по-порядку.
Насчет корпуса. 4 карты по 350 ватт + все остальное — это почти 1.5 киловатта. Это, на минуточку, примерно как электрический чайник. Все это тепло надо отводить. Вы уверены что ваш корпус сможет отвести столько тепла? При этом все это будет работать совсем не тихо и поставить его в комнате вместе с людьми врядли получится. А если есть серверная — то лучше смотреть корпус с установкой в стойку. Ваш так может?
Насчет БП. Интересные соображения насчет расчета токов и падения 12в до 11в. Вот только время когда основной питающей линией было 3.3 вольта давно ушли и все современные БП расчитывают на нагрузку по линии 12В, а спецификация АТХ позволяет отклонение в ± 5%. Насчет подключения от 2 БП — интересно посмотреть как вы будете их синхронизировать. Будете объединять 12в или нет? А если один из них захочет уйти в оффлайн из-за перегрузки или КЗ, что будет делать второй? В серверах для этого есть специальные платы (power distributor), или вы собираетесь использовать плату с али за 2 бакса на сервере ценой в 1 миллион?
Диск. 860 Evo? Один? Вы серьезно? Какой у него ресурс? Какая на него будет нагрузка (объем записи в день)? Что будете делать если он выйдет из строя? Как будете восстанавливать работоспособность сервера? Менять и все переустанавливать? Вообще не подумали. Экономия на спичках. Под такие системы надо брать ну хотя бы что-то уровня intel s4510, а лучше s4610, а если нужна скорость — то p4610.
Насчет материнки — без ipmi набегаетесь, когда что-то случится. если серверная с кондеями — то еще и продуть может.
По памяти — памяти много не бывает. Особенно для 4*3090. Я бы сказал 128GB — это минимум с которого надо начинать. И только ECC.
В итоге получился игровой компьютер с 4 мощными видеокартами.
И не раскрыты темы:
3090 в большинстве своем на 2.5 слота. как будете ставить?
стандарт АТХ — это 7 карт расширения. Как вы собираетесь засунуть 4 карты (даже по 2 слота)
На мой субъективный взгляд, из всего закупленного можно было бы оставить только видеокарты, но тут не указано что в итоге купили.

Festour Mar 26 2021 at 00:59

Ещё они упустили, что в 3090 нужно мониторить не только температуру видеочипа, но и GDDR6X видеопамяти. Мне на своей 3090 пришлось заменить термопрокладки на высоко теплопроводимые, тогда 3090 перестала тротлить из за перегрева видеопамяти.

mikprin Mar 26 2021 at 01:05

Наша пока вообще отличные температурные показатели показывает под нагрузкой. Правда пока она там одна, но все же.

mikprin Mar 26 2021 at 01:04

Обо всем по порядку.

1.5 КВт тепла отводит не корпус сам по себе, а вся система охлаждения. Обдув у него очень хороший, если обеспечить быстрые кулеры, то да шуметь он будет, но обдув хороший. Не хуже, чем у серверов.

Стоит комп не под столом и не на столе. Стоит в серверной.

Корпуса в серверную стойку я очень активно рассматривал. Но отсеял по трем причинам: собрать нужно было быстро, а серверный корпус сложнее выбрать. Кроме того в такой (выбранный) корпус пользуясь шлейфом легко ставить карту боком, там много места. В серверном корпусе для этого нужен переходник которого в россии я не нашел (я писал об этом). Серверные корпуса если не специализированные для GPU, не лучше ничем конкретно.

«Диск. 860 Evo? Один? Вы серьезно? Какой у него ресурс? Какая на него будет нагрузка (объем записи в день)? Что будете делать если он выйдет из строя? Как будете восстанавливать работоспособность сервера?»

Во-первых, это не сервер для базы данных, для этого есть другой компьютер на серверной платформе. А тут будет идти какая-то текущая работа. Можно купить еще два диска таких же и обьединить их в ZFS. У меня был такой план. Поэтому изначально не NVME. Во вторых, а почему ресурса этих дисков должно не хватить? Вопрос в интенсивности работы.

«По памяти — памяти много не бывает. Особенно для 4*3090. Я бы сказал 128GB — это минимум с которого надо начинать. И только ECC.»-- Да я написал что есть такие планы. Хотя ECC и не настолько сейчас критичен. Считай что это параллельная рабочая станция, а не веб сервер.
«3090 в большинстве своем на 2.5 слота. как будете ставить?»
Ну без каких то ухищрений легко вставить 3 карты: две в слоты через один. И одну боком через удлинитель. Карты нужны именно турбированные, чтобы не нагревать все внутри. Четвертую через удлинитель снаружи.

«Вот только время когда основной питающей линией было 3.3 вольта давно ушли и все современные БП рассчитывают на нагрузку по линии 12В» — Я где то написал, что сейчас основная линия питания это 3v3?? Мне кажется вы неправильно трактуете мои слова.
«Будете объединять 12в или нет?» Нет. Спаяю элементарную оптопару от питания другого сервера и будут две независимые 12V линии с общей землей через PCI. Может быть сделаю об этом пост.

egusev Mar 26 2021 at 02:01

И все же, 1.5 КВт — это реально много. Сервера лучше тем, что в них изначально продумано охлаждение. Ладно, посмотрел картинки корпуса. Если правильно понял в нем два 120 кулера на подачу и один 140 на вытяжке в районе проца. Ну не продуют два 3-5 ваттных 120 кулера 1.5 кВт тепла, особенно если 2/3 потока вытяжной кулер прогонит через проц. Вам понадобится что-то вроде 30-50 ваттных дельт PFC/FFC1212)
Насчёт 3.3 вольт — это я к тому, что сейчас можно ориентироваться на ватты, разглагольствования про бензин и амперы — они ни к чему. Расчет простой: 100-200 ватт на переферию + tdp CPU и карт и разделить на 0.7. Вот мощность БП. Лучше порассуждать про КПД и голды/платину/титаны.
Насчёт объединения — хорошо что умеете пользоваться паяльником. Но повторю вопрос — если один из блоков решит уйти в оффлайн от перегрузки/КЗ — что будет делать второй? Как отработает система в целом?
Насчёт дисков. Для БД я бы меньше 3710 и не порекомендовал. Совсем не понятна логика почему не NVME. Они такие редкие что 3 не сможете купить? Или что потом они исчезнут и ещё 2 не сможете докупить? Hint — u2.
Опять не понимаю логику между ECC, рабочей станцией и веб сервером. А, ну вот, кстати https://m.habr.com/ru/amp/post/536260/
"Четвертую через удлинитель снаружи." вы чего, серьезно? Зачем вы тогда такой корпус покупали? Взяли бы алюминиевых уголков, райзеры (только те что x8 или x16) и сделали бы корпус как у майнеров. Было бы и дешевле и охлаждение со всех сторон. Зачем все это?

mikprin Mar 26 2021 at 03:54

Во первых, турбированные карты сами оснащены мощными кулерами на выдув. А они генерят 80% тепла. Во вторых там еще кулеры сверху, и спереди три.

«Насчёт объединения — хорошо что умеете пользоваться паяльником. Но повторю вопрос — если один из блоков решит уйти в оффлайн от перегрузки/КЗ — что будет делать второй? Как отработает система в целом?»
Если выключится первый, то он тут же выключит и второй. Потому что разорвется сигнал Power_Good. Если выключится второй… то он просто выключится и выключит одну из видеркарт. В принципе это будет для компьютера как если бы вы выдернули из карты доп питания. Просто выключится карта.

«Насчёт дисков. Для БД я бы меньше 3710 и не порекомендовал. Совсем не понятна логика почему не NVME. Они такие редкие что 3 не сможете купить? Или что потом они исчезнут и ещё 2 не сможете докупить? Hint — u2.» Ну а куда их там ставить потом в количестве 3 штуки? Покупать переходники в PCI?

"«Четвертую через удлинитель снаружи.» вы чего, серьезно? Зачем вы тогда такой корпус покупали? Взяли бы алюминиевых уголков, райзеры (только те что x8 или x16) и сделали бы корпус как у майнеров. Было бы и дешевле и охлаждение со всех сторон. Зачем все это?" --Вообще отличная мысль. Но райзеры на рынке душат производительность. А так три карты пока более чем достаточно. Нужна будет четвертая вставим.

sa1ntik Mar 31 2021 at 11:09

«Диск слишком медленный, так что единственный способ — как-то генерить данные процессором.» Не очень понял эту мысль. Это взаимодополняющие, а не замещающие компоненты.

Мысль проста — в вашей системе ничего из присутствующего не сможет полностью нагрузить видеокарты на всю ту пропускную способность, которую дают 16 лейнов на карту. И как вам уже неоднократно говорили — именно поэтому майнеры и используют райзеры.

1.5 КВт тепла отводит не корпус сам по себе, а вся система охлаждения.

То есть тепло отводит корпус, в котором установлена система охлаждения.

Можно купить еще два диска таких же и обьединить их в ZFS.

Два каких диска? 860 Evo? Который в 2ТБ версии имеет «смешные» 1200 TBW? Вы в курсе такого понятия как «write amplification»? А в курсе, что у CoW ФС он может достигать и превышать значения 30+ (и даже без виртуализации)? В лучшем случае потребительские SSD под ZFS без вынесенных ZIL живут года по два.

Во вторых, а почему ресурса этих дисков должно не хватить?

Потому что «усиление записи» (да простят меня за надмозговый перевод). В случае, если бы вы реализовали свою хотелку на ZFS с винтами на 1ТБ, то я готов был бы дать 50-60% вероятность, что они протянут год.

Хотя ECC и не настолько сейчас критичен.

Как бы на любой файловой системе возможны проблемы с чтением/записью при сбоящей памяти. Но в случае ZFS и scrub (особенно по расписанию и без контроля) веселье будет гарантировано.

Считай что это параллельная рабочая станция, а не веб сервер.

А веб-серверу в общем случае зачем ECC?

Карты нужны именно турбированные, чтобы не нагревать все внутри.

То есть вы сначала говорите о хорошем воздушном потоке, а потом говорите что карты должны быть «турбированные»? Серверные видеокарты на пассивном охлаждении обычно. Потому что там действительно хороший воздушный поток.

Четвертую через удлинитель снаружи.

Я правильно понимаю, что это означает «четвёртая видеокарта будет торчать снаружи системника, чтобы любой, проходящий мимо, мог её спихнуть»?

с общей землей через PCI.

Общим нолём только. Уверены, что это адекватная идея использовать шину PCI с дорогими видеокартами и прочим железом на ней как проводник выравнивания потенциалов? Лично я, как электрик, скажу что не очень.

algotrader2013 Mar 26 2021 at 13:48

Кстати, из интересного, тепло от 4*1080ti + 2*10 core Xeon в 1 юнитном корпусе Gigabyte отводится успешно. Своими глазами видел и поразился сему чуду инженерной мысли. Правда, корпус столь глубок, что из некоторых стоек морда на 5 см торчит)

dorne Mar 26 2021 at 05:05

Я бы смотрел в сторону эпиков для такой задачи:

AsRock Rack ROMED8-2T — 60к
AMD EPYC 7351 — 50к (Или что-то подходящее под материнку еще дешевле. В продаже бывает, но, раскупают быстро.)

Получится:

128 линий PCI-E
7 полноценных х16 слотов
до 4х видеокарт без райзеров
серверные фичи
по деньгам, — аналогично
возможность поставить больше оперативки
возможность поменять процессор на поновее/получше, если понадобится
купив проц совсем чуть подороже (7XX2 серия) можно получить PCI-E 4.0 вместо 3.0

mikprin Mar 26 2021 at 12:41

Дельно. Но по деньгам все же немного дороже. Именно в расчёте на 4 карты выходит что железо дороже. Ибо материнка в два раза дороже. Но да. Видимо можно было так брать тогда.

chapai22 Mar 26 2021 at 10:09

Выглядит как мышиная возня, сборка китайских компонент. Ладно для дома, но для работы зачем? Экономный вариант нонче, б/у рабочие станции.

Идем на ибей, покупаем Dell Precision 7920, 2x зион проца gold ~3GHz 2x16 core, 192 гига ecc, штуки за три. Можно поужиматься, поиграть в самодел и взять за штуку, ну полторы суммарно. Имеем грамотно спроектированное все от корпуса, мамки до блока питания и охлаждения, и работать оно будет 24 часа много лет нонстоп. А не так чтоб через год чпок, и сгорело или обновления биосов и драйверов закончились..

Запчасти стоят дешево и будут долго еще на рынке, тот же блок питания в запас макс полторы сотни или дешевле. И он честных 1400 ватт под непрерывной нагрузкой, а не в условном пике.
Набортно поддерживатся 4x M.2 or U.2 PCIe NVMe SSD. но можно воткнуть рейд карту для SSD подскока, и это куда надежней чем отдельно диски. Слоты для hdd.
До 3T памяти, если вдруг будет надо. Все сетевые и прочие. Софт для мониторинга делловый. Те же операционки легально.
Ну и так далее.
Или просто подобрать делловый сервер подходящий.

UFO just landed and posted this here

SlFed Mar 26 2021 at 10:50

Жаль что нет фото того что получилось в итоге.
И вопрос по шуму и охлаждению помещения где это все находится — насколько комфортно рядом с ним быть?

mikprin Mar 26 2021 at 12:40

Если в полной нагрузке, то видеокарты шумят. А фото да. Даже есть, просто не добавил.

SlFed Mar 26 2021 at 13:08

Так его разместили в изолированной серверной или в офисном помещении? В плане комфортности работы рядом с ним возможно его размещать рядом с людьми?

mikprin Mar 26 2021 at 13:10

Разместили в отдельном техническом помещении сейчас уже. Когда испытывал стоял рядом. Если брать чисто процессор и корпус, то уровень шума небольшой. Если нагружать видеокарту по полной, то она конечно гудит и не очень комфортно. Но это только если ее именно стресс тестом пересовать. Турбироаанные карты в целом громче.

Nordicx86 Mar 26 2021 at 12:37

а просто майнинг ферму готовую взять? Можно даже БУ…
ну вот что то мне говорит что у вас нет такого потока между картами…
В обще странное представление о серверах — что мешало взять вот такое — www.supermicro.com/en/products/system/4U/4029/SYS-4029GP-TRT2.cfm

mikprin Mar 26 2021 at 12:39

Ну покажите где можно вот такой вот сервер за неделю взять. И сколько это будет стоить?

UFO just landed and posted this here

mikprin Mar 26 2021 at 22:45

Ну вот я нашел варианты за 500к. И тип разница выходит 500К против 300К за два таких компа. А если нужен один, то зачем отваливать сейчас 500к?

UFO just landed and posted this here

Nordicx86 Mar 26 2021 at 13:24

shop.nag.ru
Там правда может не оказаться конкретно такой машины, но подобрать аналоги на 4-8 GPU думаю реально.

хотя всё таки странно почему не взяли просто майнинг ферму?

mikprin Mar 26 2021 at 22:44

Несколько причин:
1. Может и как показали не так актуально, но не хотелось через 1Х PCI-E подключать их.
2. Там же еще процессор был нужен все же тоже не самый слабый, а майнинг ферма она обычно строится вокруг слабого проца.
3. Так все же оно пока очень аккуратно выглядит. Но да я долго рассматривал идею сделать как бы ферму. Оттолкнуло в итоге, что смотрел видео, и люди показывали как приклеивают райзеры в слоты чтобы не отваливались, и это стало последней каплей. Хотелось собрать что-то надежное и без клея.

Nordicx86 Mar 27 2021 at 09:35

с вашим Бюджетом — если честно Я бы остановился именно на варианте с клеем и тп — потому что У вас нет понимания того что Это будет в будущем и все кроме КАРТ в будущем пойдет в Утиль…

-1

UFO just landed and posted this here

Nordicx86 Mar 27 2021 at 09:50

ну про клей понятно — так обычно происходит когда Отлаживают ибо на китайских мамах Разъемы плохонькие и живут не долго…
про х16 райзеры у меня у самого так — нода от с6220 + GPU на х16 райзере

UFO just landed and posted this here

Nordicx86 Mar 27 2021 at 09:52

Отсутствие понимания такой вещи как архитектура — для них компьютер Это Монолит, а не набор отдельных компонент который можно адаптировать к задаче

mikprin Mar 28 2021 at 00:35

Да, я понял уже потом, что речь шла про способ сборки, а не про железо.

sa1ntik Mar 31 2021 at 11:26

Может и как показали не так актуально, но не хотелось через 1Х PCI-E подключать их.

А почему не хотелось то? Есть понимание, что их можно будет сильнее загрузить?

Там же еще процессор был нужен все же тоже не самый слабый, а майнинг ферма она обычно строится вокруг слабого проца.

А зачем? Есть понимание, что он не сможет загрузить видеокарты?

Так все же оно пока очень аккуратно выглядит.

То есть висящая на райзере за пределами системника видеокарта это прямо аккуратно?

Хотелось собрать что-то надежное и без клея.

Поэтому в итоге выбрали райзер и отдельно стоящую видеокарту? Приклеить не забудьте и то и другое :)

AlexAV1000 Mar 26 2021 at 17:35

На двухпроцессорном Хуанане с серверными процами надо было собирать.

Tatikoma Mar 26 2021 at 19:13

Собирал под цели машинного обучения практически идентичную конфигурацию. Тоже были проблемы с той же моделью ASRock (как выяснилось проблемы были не в нёй — процессор надо лучше прикручивать), заменил на Asus PRIME X399-A. Модель процессора та же самая. Видеокарта другая, взял GeForce GTX 1080 Ti. Оперативки 128G, так же взял Samsung но слегка промазал с моделью и взял не ECC.

Правда с машинным обучением не срослось и теперь это мой рабочий компьютер =)

mikprin Mar 26 2021 at 22:36

Кстати я когда искал проблему почему оно может не стартовать, я наткнулся на проблемы с сокетом как раз. Именно у FOXCONN иногда не докручиваются болты сразу до конца. Но тут точно была не с этим проблема.

Muzzy0 Mar 26 2021 at 23:01

Всё ждал, где будет водяное охлаждение с такими мощностями..

mikprin Mar 28 2021 at 00:34

Да вроде как оно не нужно. Воздушный кулер конечно большой и не удобный, но водяное охлаждение, это гемор с точки зрения надежности. Но жирный плюс с точки зрения тишины. Но он пусть себе шумит там в закутке…

Muzzy0 Mar 29 2021 at 16:28

Но жирный плюс с точки зрения тишины.

не только тишины, но и эффективности.
Особенно, если на видеокарты поставить.

varuzam Mar 28 2021 at 00:30

Что выбрали для удалённого доступа пользователей к gui?

mikprin Mar 28 2021 at 00:33

Хороший вопрос. Если есть что посоветовать, советуйте. Сейчас пытаюсь настроить tigerVNC вот по этой:https: //wiki.archlinux.org/index.php/TigerVNC инструкции. Если получится выложить статью или видео, потому что не все работает так уж гладко. Есть тонкости. Если не получится, оплатим RealVNC. Tiger работает хорошо и отзывчиво если работает. Не получилось пока настроить динамическую раздачу мониторов (XDMCP), если был такой опыт, то с радостью выслушаю.

varuzam Mar 28 2021 at 08:15

X2go

mikprin Mar 29 2021 at 18:36

Он норм что-то вроде Blender локально потянет? Я слышал что его использовали для как раз таких задач, но для чего-то плохо оптимизированного для XSERVER оно норм работает?

n3kitOzz Sep 7 2021 at 17:21

А как реализована защита от ситуации, когда 1 из бп уходит в оффлайн?

mikprin Sep 7 2021 at 17:21

Никак )