Comments 38
Пора уже применять решения майнеров для обогрева жилища этим теплом...
ECC-память, Threadripper vs Core i9 - а надо ли?
Часто спрашивают: «А может, сразу собрать на серверном железе? ECC память, Threadripper, Xeon…». Я тоже в какой-то момент задумался об этом, когда ловил глюки в долгих прогонах: а вдруг это из-за ошибки в оперативке, которой ECC бы исправила? Но трезво оценив, решил не заморачиваться с ECC-памятью. Почему:
ECC (Error-Correcting Code memory) действительно защищает от единичных битовых ошибок. Для серверов, которые считаются месяцами, это важно. Но в домашнем использовании шанс, что ошибка в памяти собьёт вам обучение модели, крайне мал. Плюс, многие потребительские платформы банально не поддерживают ECC. Intel i9 не умеет работать с ECC (нужен Xeon), AMD Ryzen частично умеет с небуферизованной ECC, но это надо искать совместимые планки и платы. Короче, мороки много. И цена вопроса выше. Если вы не строите прям научно-исследовательский стенд, где критична каждая точность – можно смело брать обычную DDR4/DDR5 хорошего качества. У меня не-ECC память, и никаких проблем не возникало. Главное – не гнать память в хлам, оставить частоты в разумных пределах, тогда она стабильна. А единичный сбой (если вдруг случится) скорее всего проявится как упавший процесс, что не так страшно. В общем, ECC – опционально и обычно избыточно для домашней станции.
что насчет ECC-видеокарт? Пишут, что для них не нужен особый компьютер. По стоимости в местном каталоге какая-нибудь A5000 сопоставима с 3090, энергопотребление в полтора раза ниже
Если цена сопоставима — A5000 супер вариант ради низкого потребления и компактности. Но учтите, что в чистых флопсах она уступает 3090 (она ближе к 3080 по чипу). Если важна скорость обучения "здесь и сейчас", геймерские карты все еще выгоднее, а если важна тишина и счета за свет — то проф. линейка выигрывает ....
Мой старый “игровой” блок на 850 Вт жалобно пиcкнул и выключился, стоило нагрузить две карты по полной
Э-э-э... А на что вы надеялись? Ведь
RTX 4090 сама по себе – это 450-ваттный монстр, который в пике может жрать до 600 Вт. Две такие – это потенциально 1,2 кВт только на GPU
И? Должно было случиться новогоднее чудо?
Или это вы после посчитали? А собирали систему с карточками по 200к руб. просто наугад?
Мне хватило одного утреннего дыма из удлинителя
Нормальный (не топовый) пилот держит 3 кВт. И вырубает нагрузку при превышении порога (тепловой предохранитель). А вы через что подключали комп за полмиллиона? Удлинитель с Али 50кВт* за 100 руб?
на неё же сверху падает тепло от верхней…
Ой, все. Мастер физики детектед. Больше не придираюсь, читаю как анекдот.
Интересный опыт. А как насчёт перепаянных 4090 под 48гб? Или условный мак м3 ультра (да, не для всех задач, конечно, но там памяти можно много получить). Или новые амд со 128гб оперативки?
Я здесь в США купил себе на Ebay:
Dell Precision 7960 с блоком питания на 1400W
Xeon W5-3425 (12 cores / 24 threads)
16GB DDR5
$1000
Поставил 512GB DDR5-4800 ( 8 * 64GB) - $2000. Сейчас память конечно намного дороже стоит. Теоретически 8 каналов памяти должны выдавать около 300 GB / s, но я получаю около половины этого: я так и не понял - то ли у Dell стоит кривой контроллер памяти, то ли процессор не вытягивает полную скорость памяти, то ли рэнкинг на модулях памяти неоптимальный...
Купил из Китая RTX 4090D 48GB - $3000. Когда нагружаешь - гудит как самолёт, но работает хорошо. Пришлось повозиться, чтобы подобрать правильный кабель питания - я просто заказал несколько разных, пока нашёлся тот который нужен.
Devstral-Small-2-24B выдаёт у меня 40 т / с
Minimax 2.1 230b выдаёт около 15 т / c
А чтобы не было шума у меня в доме, я построил маленький сарайчик на улице (я тут в частном доме), с одного бока воткнул портативный кондиционер - и всё работает. Ещё я в тот сарай поставил литиевый аккумулятор на 2kW*h и китайский инвертер-UPS на 3kW... А так как у меня к дому идёт файбер на 2Gbps, то у меня тут прямо свой "дата-центр".
Перепаянные 4090 (48 ГБ) для пет-проектов — интересный "франкенштейн", но для серьезной работы слишком рискованно. Никакой гарантии, возможны танцы с драйверами и стабильностью. Mac M3 Ultra Шикарный вариант для инференса (запуска) огромных моделей благодаря унифицированной памяти. Но для обучения всё еще медленно по сравнению с CUDA, плюс цена космическая. Железо у AMD мощное, но CUDA — всё ещё стандарт индустрии. С AMD (ROCm) придётся чаще воевать с совместимостью библиотек. Если нужно "вставил и работаешь"/
Я со своей 3070 + 5 5600x тихо курю в сторонке...
а если поместить вашего монстрика в аквариум с трансформаторным маслом - не проще будет решить вопрос охлаждения? Правда, пропеллеры карт в масле завязнут, надо снимать и менять на что-то менее размашистое
( Epyc 7443 с ebay + китайский HUANANZHI H12D 8D материнская кучей фишек вроде .bmc module & split pcie если надо , мне было надо на 4х4х4х4 для nvme) < 1000 usd. 4 слота pcie через 1 и 128 линий pcie v4 и 8 каналов ddr4 64 2400 . На фоне двух 5090 ( ну и памяти конечно, но я покупал ее до подорожания) это недорого. Корпус просто кладётся горизонтально(на плате pcie без фиксаторов)
И Ddr4 равно дешевле ddr5
Пришлось перебросить сервер на отдельную линию, купить толстенный сетевой фильтр с доп. защитой и постоянно следить, чтобы ничего лишнего в ту же розетку не было включено.
Вы бы на эту линию автомат правильного номинала поставили. Правильный - соответствующий самому узкому месту в цепи (включая удлинители, если таковые есть, но вообще они зло): если там 1,5 кв.мм меди - то максимум 10А, если 2,5 кв.мм или больше - 16А (больше 2,5 кв.мм бессмысленно, т.к. сама розетка не рассчитана на >16А). И ничего не будет гореть, что бы Вы там ни включали.
Для домашнего ЦОДа я бы вообще рекомендовал ставить реле напряжения (типа РКН), чтобы отрубало питание при скачках. БП 1600Вт стоит дорого, жалко будет если отгорит ноль в подъезде
Так это не только для домашнего ЦОДа, это для любого дома строго обязательно, сразу на входе за вводным автоматом. Как и дифзащита (УЗО), а для отдельностоящих домов - ещё и УЗИП (на вход кат. 1+2, а на ту самую линию к серверу в этом случае - кат. 3).
В старых домах, где не хочется ломать весь ремонт, чтобы поменять проводку, конечно, сложно сделать всё по уму. Но, IMHO, лучше уж переложить параллельно старой новую проводку в плинтусах и кабель-каналах, чем рисковать и техникой, и пожаром.
Интересно, что компьютерные блоки питания стали мощнее сварочных аппаратов
Сварочники в обычную розетку 16А включаются. А тут речь о том, что её можно перегрузить
16 А*220 В=3520 Вт. Перегрузить можно если продолжительно суммарная мощность превысит 3,5 кВт. Другими словами если в сетевой фильтр воткнуть много потребителей и запустить их одновременно. Но где же тут компьютерные блоки питания, которые мощнее сварочных аппаратов? К слову, сварочные аппараты рекомендуют включать через автомат в 25А (5,5 кВт), во избежание отключений при пиковых нагрузках.
Автор что-то писал про отдельную линию от щитка, то есть у него 16 А не вывозит. Ну и сварочницы разные бывают, которые помощнее напрямую цепляют, без автомата, тогда свет у всех потребителей мигает
Мигает от трансформаторных сварочников, они громоздкие и тяжёлые, сейчас такими почти никто не пользуется. Инверторные сеть не "просаживают", работают от 160В. Инверторные суть импульсные источники питания, как и компьютерные PSU, разница в выходном напряжении и токе (ну и регулировки присутствуют).
небольшое дополнение - под столом обычно самое пыльное место, + хороший корпус работает как пылесос, лучше иметь отдельный фильтр для очистки воздуха в помещении, который можно включать вместе с сервером, бонус - дышать чистым воздухом тоже неплохо,
по опыту из корпусов можно что-нибудь типа больших Nanoxia, шумоизоляция тоже важное дело, также большой размер часто лучше многих вентиляторов, хотя одно другому не мешает

Собирал себе простенькую систему для небольших домашних экспериментов пару лет назад. Старенький Xeon + 64гб ОЗУ + 3060 12гб. Я не сталкивался с тем что описано в статье, но пошел чуть другим путем и настроил на нем полностью серверный Linux, без интерфейса и подключался к нему по SSH. Вот там тоже начинаются свои танцы с бубном. Настроить ГПУ в докере было тем еще приколом, нормальных инструкций в интернете не нашел, только кусками. Сервер это всегда весело)
запах палёной изоляции — не то, с чего должен начинаться день дата-сайентиста
Золотые слова! Сразу вспомнились майнеры 2017, у которых плавились SATA-переходники. История циклична: теперь дата-сайентисты жгут проводку)
Главное не экономить на огнетушителе, это самый важный компонент в сборке за полмиллиона
Тоже собирал систему, много проблем было, 5090 в основной блок питания, 4090 + 3090 в дополнительный блок питания. Все это удалось запихать в домашний (не серверный) корпус, правда очень большой.
Все видеокарты на райзерах, разнесены максимально, насколько позволило место, чтобы не грелись друг от друга, и у всех пришлось ограничить потребляемую энергию. материнка супермикро, процессор эпик, памяти думал позже побольше взять, но не успел докупить до подорожания.
Как вы думаете, почему у батарей отопления оребрение вертикальное? Это к вопросу о том, как лучше всего располагать видеокарты. Да и сопромат тоже мягко намекает...
Дык про что пост? Как тяжко приходится мамкиному датасайнеру с компом за пол ляма?
Почему мамкиному - так тут не про инженерный подход к вопросу, а больше про то как пихнул карту - не влезла, заказал корпус побольше - впихнулось две но сломалась мать, заказал мать, спалил БП, взял побольше, новая мать без шины, берём новую с достаточным ПиСиАэкспрес. Был бы я сыном зам начальника урюпинского МВД тоже бы не парился на такие мелочи, но если прикинуть что железо нужно для работы, а деньги нужны что бы с голоду не подохнуть наверно подход бы выбрал несколько иной. Вот банально ОЗУ взять без подсветки, каких то 30к экономии, а можно месяц кушать...
Кстати - а что там с райзерами не так? Вроде бы для обучения моделей там шина особо и не нужна - в видяху зашла модель и там себе крутится не выходя, лишние 3 минуты ради 30 часов обучения наверно можно списать на погрешность. Поправьте если не прав.
Если важен "фпс" то смотрите на майнеров - они уже протоптали тропинку и везде где можно потупить - протупили. В итоге их решения такие же инженерно отточенные как танки - ни одной лишней детали. Корпуса - сразу нафиг. Алюминиевый уголок наше фсьо. Нужна тишина - топим комп в аквариуме, остужаем радиатором от газели и помпой с алиекспреса для рыбок.
А все эти игровые корпуса и подсветка - это для рефератов и майнкрафта.
Нужно разбираться с DataParallel, Distributed DataParallel и прочими шутками. Впрочем, это тема для отдельного разговора.
Без этого непонятно зачем вообще столько мороки.
Столько страшилок... А главное, серьёзно, в 26 уже году? Вторая статья которая не может не вызвать улыбок. Майнеры и по 12 и более карт запускали на одной матери, и несколько киловатт снимали с одной фермы. Зачем же изобретать велосипед? Если не вдаваться в сложности типа иммерсивки, то ничего лучше рига придумано не было. Зачем изобретать велосипед с 5 квадратными колёсами, если уже давно придумали крутые велики, бери и делай.
Куда как более полезно было осветить не как в розетку 16А воткнуть блок питания на 1600Вт, а как раз важную специфику про DataParallel, Distributed DataParallel... А как собрать риги, инфы в инете просто валом, всё уже придумано 12+ лет назад)
Я в 16 году собирал ферму из 25 карт для майнинга (примерно 5квт суммарная мощность) конечный сетап выглядел как:
Бак 80 на 60 на 60(примерно, точно не помню), заказанный у какого-то мастера на авито из нержавейки за 4 к рублей с материалами.
Жижа - пмс-80
Перепаяные серверные блоки питания(для видюх важно именно 12 вольт)
Теплообменник расчитаный на 5квт и пмс80
Циркуляционный насос
С видюх надо снять весь пластик, и на стяжки прикрутить обычные 80тые вентиляторы. пмс вымывает пластификатор, и изоляция и прочий пластик становится очень хрупким, потом такое не продаш
Стойки сделал сам из шпилек, алюминивых профилей, с помощью болгарки, шуруповерта и заклепок
Ну а куда тепло девать - тут простор для фантазии. Можно холодную воду греть, помещение, миниградирни
Такой сетап занимал очень мало места, не издавал звуков, и, при наличии счетчиков тепла, позволял отказаться от отопления зимой
В таком корпусе видеокарты закреплены через специальные стойки и райзеры, чтобы исключить провисание и обеспечить им равномерный обдув.
Ну какие стойки и райзеры в 4U корпусе? Он ЛЕЖИТ (относительно стандартного потребительского корпуса). Карты в нем вертикально, какое провисание? У вас фото прикреплено даже.
Почему не Linux? Все пишут про большую производительность на одинаковом железе по сравнению с Windows.
Не проще вынести системник на балкон, например? Всегда интересовало до какой температуры зимой оно будет нормально работать...

Рабочие станции для ML и Data Science — как собрать сервер под столом