Liugger May 30 at 06:51

Как я собрал LLM-печку на 4 GPU, и на что она способна

Easy

17 min

30K

Computer hardwareArtificial Intelligence

Case

+96

110

Comments 110

MxMaks May 30 at 07:21

Вы срваниваете по цене локальные токены с сетевыми токенами. Но gpt или claude по подписке дешевле в разы, чем покупать токены у них, а возможности сейчас практичесеи неограничены для бытового применения.

Для такой локальной сборки намного лучше майнинговый двухэтажный корпус с двумя бп.

akakoychenko May 30 at 13:53

Но gpt или claude по подписке дешевле в разы

сомнительная тема, увы
ладно, что баны можно поймать при эмуляции человеческого поведения через АПИ
но, (особенно клод этим славится), они ж, гады, еще и постоянно ползунки качества моделей под капотом двигают (типа, ой, конкурент че-то пошел в рост, - надо срочно давать качество юзерам/пришло время экономить - режем размышление и ставим квантование), что делает бессмысленным ряд задач, например, исследовательских

>Для такой локальной сборки намного лучше майнинговый двухэтажный корпус с двумя бп.

Та да, не понимаю человека, который потратился на 4 3090, но не захотел намутить МП с нужным количеством и скоростью PCIe + просторный корпус (ок, оно может иметь инженерную красоту, когда карты красиво стоят плотным рядом, и нет избыточного места, но, не когда из-за этого страдает принципиальная функциональность)

ENick May 30 at 07:31

"""А если мы еще и не покупаем по новому роллс-ройсу каждый месяц """ - классная аналогия, очень образная!

Melirius May 30 at 07:54

Плюс 100500 за Crysis!

Liugger May 30 at 08:35

Кстати, кукурузис таки тянет, все вышедшие на сегодняшний день части)

Nur0809 Jun 16 at 05:32

еще бы "не тянул"))))
Я тебе еще вот что скажу - тебе пк к выходу гта 6 обновлять не нужно)))

Alex-Freeman May 30 at 08:15

К сожалению у вас получился монстр Франкенштейна) Первая проблема - корпус не предназначенный для установки такого количества GPU, стоило смотреть что-то большое, типа Super Full Tower, например Corsair Link 9000D. Второй момент - перевести все GPU на воду, убрать родные водяные радиаторы, а лучше вообще выкинуть вместе с установленным водоблоком, там проходные отверстия часто слишком узкие и сложно прокачать воду через несколько последовательных блоков, лучше взять одинаковые от того же Alphacool (у них на старые модели скидки, для 3090 сейчас по 49 евро водоблок) и поставить 3-4 толстых медных качественных радиатора типа 420х40-60 или 560/600(под 200 вентиляторы), если корпус позволяет, с хорошими кулерами (хорошие в смысле дающие напор минимум 3-4 мм H2O). Плюс хорошая помпа способная прокачать такое сопротивление (на том же Али есть мощностью по 50 w) и обязательно датчик потока, который может отключить систему если помпа встанет, если важно продолжать работать - ставите сдвоенную помпу.

Я в свое время думал собрать, что то подобное, но использовать 3090/4090 не эффективно, можно загрузить только не совсем умные модели, оптимально брать б/у a100 80Gb 4-8 шт, но такая сборка не окупится никогда( даже если ее с токенами Opus сравнивать.

Liugger May 30 at 08:35

Собирал я сборку на основе того что уже было, а изначально про multi-gpu не думал.

Корпус, что вы предложили хорош и даже больше, но, на мой взгляд, не критично больше.

А вообще, я думал, что если когда-нибудь решусь на переход к следующем уровню, то корпусом будет thermaltake core w200 - бескомпромиссный вариант, особенно, если приобрести к нему пьедестал. Кастомная вода - это топ и мечта, очень хотелось бы, но встаёт вопрос финансов и поиска водоблоков для зоопарка RTX 3090. А если собирать не на этих видюхах, то вопрос финансов становится очень острым.

DerTosser May 30 at 20:30

Всё уже придумано до нас. Я тоже был в поисках идеального корпуса, но как оказалось стоечные для этого подходят лучше всего. В них продумано и стекирование и прохождение воздушных потоков и хорошая доступность для манипуляций внутри. Как бонус - это самый компактный вид при достаточно плотном размещении внутри.

Вот пример этих красавцев (вписываются в 3U-4U, не такие уж и длинные, при желании можно поставить боком и будут выглядеть как tower.)

Скрытый текст

Что касается шума, то всё оптимально - стандартные 120мм вентиляторы из потребительского сегмента.

nikulin_krd May 30 at 20:56

Вопрос в стоимости. Вот когда-то мной был приобретен Corsair Obsidian 1000D. В нем можно даже 2 системы разместить и при этом это Tower и по поводу воздушных потоков - там все настолько продуманно и прекрасно, что из тихих решений чуть ли не лучшее

DerTosser May 30 at 21:16

Если задача собрать из того что уже есть, тогда естественно, вопросов нет. Но если планируется что-то специально подбирать на будущее, то я бы советовал стоечные. По поводу цены, да эти готовые что на фото стоят наверное порядочно, но это всего лишь как эталонная реализация, на авито полно б/у корпусов по адекватной цене, нужно всего лишь подобрать 3-4U высотой, с возможностью размещения стандартной десктопной материнки, как показал беглый поиск таковые имеются. Конечно у них может не быть перевёртыша (I/O shield и слоты расширения на морде где включение питания), но этого нет и на обычных десктопах. Конечно, это по большей части вкусовщина, но стоечный можно поставить и боком и в стойку запихнуть, а десктоп башню только на полку в стойку и то габариты или меньше или больше будут, могут и не влезть. Стойка это не обязательно шкаф из датацентра на 36/42 юнита, есть вполне домашние 6-12 юнитов, которые как тумбочка на колёсиках - вроде и по-взрослому, но в домашнюю обстановку вписываются. С десктопами же придётся колхозить если больше одного.

nikulin_krd May 30 at 21:41

У меня в доме стоит 15-ка, но с глубиной 600, чего маловато для серверов, да я и не хотел бы сервак туда ставить - шума много. А так там стоит пару коммутаторов - PoE и 10Gb + контроллер точек(все Ubiquity), двухюнитовый бесперебойник, Synology NAS и патч панелька.

DerTosser May 30 at 22:08

Стандартные сервера с EATX укладываются в 600 вполне, те же супермикро 823/825, IBM eServer Series, корпоративные АТС... ну не знаю что можно ещё длиннее для дома придумать. Это если мерить 600 между вертикальными крепежами, сам-то шкаф получается чуть длиннее за счёт пространства от них и между дверцами передней и задней. Стандартные серверные вентиляторы (40 и 80) воют из-за оборотов в 7к-15к rpm, конечно шумно, десктопные 120 на 1,5к-2к приемлемо, а если их ещё по температуре теплоносителя регулировать, что редко где делается, тогда вообще при нагрузке от нейросетей дома будет почти тишина.

MxMaks May 30 at 08:35

Корпус неплохой но по цене еще одной 3090)). Жаль поздно узнал о нем, уже купил Lianli 011 evo xl. Для эконом суперсборки exegate pro 8-430 вне конкуренции. Туда пятая сэкономленная на этом корпусе 3090 как раз зайдет и с бп проблем не будет.

Если зашла речь про А100 то Н200 минимум)

Если нужна селф окупаемость то на cpu ddr5-ecc возможно чтото вытянуть системе.

nikulin_krd May 30 at 08:52

Королями таких сборок обычно являются Corsair Obsidian 5000D и 9000D

Alex-Freeman May 30 at 10:25

А100 80Gb по соотношению цена/объем выигрывает если не нужна максимальная производительность. А100 80Gb можно бу взять по 5-6к + адаптер SXM4 $550. в половину от RTX PRO 6000 Blackwell. Плюс у А100 есть nvlink. Бюджет конечно не на поиграться, но если проект как-то монетизировать не такая уж и фантастика.

MxMaks May 30 at 10:33

На счет монетизации… да у меня руки тоже к жужжащему железу лежат… но как opus-4.8 окупать я знаю и успешно этим занимаюсь, а как окупать такую хоум сборку - нет.

Alex-Freeman May 30 at 16:12

Так вот и я не придумал) К окупаемости opus-4.8 тоже есть вопросы. Но я знаю одну контору у которой развернута локальная LLM, потому, что режимное предприятие. Там уже вопрос не в цене ~~кто ж бюджетные деньги считает~~

nikulin_krd May 30 at 11:57

А где можно 80гб версию взять за 5-6к? Я вижу только 40гб версию за эти деньги. Так что разницы в цене с 6000 pro нет

Alex-Freeman May 30 at 16:09

Да их полно. Бывают и дешевле, видел как-то лот из 10 штук, за 45к, но он быстро ушел. https://www.ebay.com/shop/a100-80gb?_nkw=a100+80gb&_sop=15

kuza2000 May 30 at 08:43

Табличка довольно спорная, не учитываются возможности новых методов квантования, которые поддерживаются новыми чипами nvidia

Пробовал на rtx 5090 с 32Гб модель 80B, получил скорость 70+ т/с с контекстом 32к, и 40+ с контекстом 256к. Контекст заполнял полностью. Модель Qwen3-Coder-Next-UD-IQ4_XS.

nikulin_krd May 30 at 08:50

И это не только мои наблюдения. На Reddit натыкался на посты о бессмысленности перехода с 2-x Blackwell 6000 на 4 штуки, так как единственная модель, которая становится доступна это Qwen3.5-397B-A17B. Отдавать ради такого более 10 тыс. грязных зеленых бумажек - не сильно рационально.

Очень странно… на 4-х 6000 pro можно развернуть kimi-k2.6 квантованную

nikulin_krd May 30 at 09:29

Я не понимаю почему кто-то решил минус влепить и не обосновать))) Kimi-k2.6 это MoE модель, которая позволяет экспертов сгружать в оперативную память. 380Гб VRAM это достаточно, чтобы держать достаточно большое количество экспертов и большой контекст в VRAM, тем самым ускоряя инференс. Читаем https://unsloth.ai/docs/models/kimi-k2.6

rPman May 30 at 18:19

на процессоре очень медленно, причем проблема даже не в скорости генерации, а в скорости чтения input. очередной /compact в opencode будет десятки минут ковырять, а еще llama.cpp постоянно кеш куда то девает (для не vision моделей можно вручную сохранять на диск, даже прокси есть которая это делает автоматически) а это значит, в случайный момент времени ваша беседа с агентом может уйти в десятименутный анализ длинного контекста.

jaker May 30 at 09:02

Сколько всего ушло на это? 500к?

avshkol May 30 at 09:03

Эта печка позволяет чувствовать себя "свободным фермером с 4 гектарами" в мире, разделяющимся на корпорации, владеющие тысячами стоек с новейшим железом, и всех остальных, вынужденных бесплатно или платно пользоваться llm (если тебе предоставят возможность, если будет интернет,...)

Sdima1357 May 30 at 09:05

Ну не знаю ... 4 RTX 3090 это примерно как одна 5090 по цене.
Вот с rtx 5090( Limited to 400W by nvidia-smi) & epyc 7443 + 8xddr4-2400+ 1000W power supply:
88GB Qwen3.5-122B-A10B-UD-Q5_K_XL ctx-size = 131072 : 34 t/s
37GB Qwen3.6-35B-A3B-UD-Q8_K_XL ctx-size = 131072 : 100 t/s
18GB Qwen3.6-27B-UD-Q4_K_XL ctx-size = 262144 : 66 t/s
21GB Qwen3.6-35B-A3B-MXFP4_MOE ctx-size = 262144 : 208 t/s
292GB Qwen3.5-397B-A17B-UD-Q4_K_XL ctx-size = 232144: 18 t/s
28GB gemma-4-26B-A4B:Q8 ctx-size = 262144 : 87 t/s
gemma-4-26B-A4B-it-UD-Q4_K_XL+mmproj ctx-size = 131072: 180 t/s
57G Qwen3-Coder-Next-UD-Q5_K_XL ctx-size = 262144: 73 t/s

Потребление замеренное на розетке в простое 160W , в обсчете меньше 600W.

kuza2000 May 30 at 10:43

Да вот и я про то же. Скорее всего, для llmок выгоднее набирать линейку из 5080 по 16к. Во первых, чип быстрее. Во вторых, новые режимы квантования. В третих pci 5.0.

Sdima1357 May 30 at 11:04

Тут все сложнее и зависит от ллм и обьема vram.

Sdima1357 May 30 at 14:16

Добавочным плюсом 5090 (vs 3090 и vs 5080)- можно гонять более толстые diffusers , которые плохо параллелятся. RTX 6000 наверно еще лучше, но $10к на поиграться ...

slonopotamus May 30 at 11:24

+1, у автора какие-то совсем унылые цифры производительности получились.

У меня 2x RTX 5080 Ti (в сумме 32GB VRAM) даёт цифры всего немного ниже ваших:

qwen-3.6-27b ctx-size = 262144: 40 t/s
qwen-3.6-35b-a3b ctx-size = 262144: 135 t/s

Какой смысл городить конструкцию из 4x GPU и получить < 10 t/s… Это даже для текстового чатика неприятно медленно.

kemiisto May 30 at 12:03

5080 Ti? 🫪

slonopotamus May 30 at 13:36

Извиняюсь, просто 5080

novomir May 30 at 09:40

Было интересно прочитать, спасибо за практический опыт.

Какой момент заметил: сравнивать цены только по входящим и выходящим токенам не совсем корректно, сейчас ввелось еще понятие как кешированные токены (повторяющийся контекст) и они в 10 раз примерно дешевле чем просто входные токены, а занимает порой 90+%. Я выгружал свою статистику из кодекса - 99.7% за май у меня это кешированный контекст gpt 5.4.

Input - 600k, cache input - 160M, output - 700k

GPT 5.4 price - input $2.50/M, cached input $0.25/M, output $15.00/M.

это примерно 52$ с учетом кэширования.

rPman May 30 at 18:22

Про кеширование - локальные сервера выигрывают под ноль, буквально.

Кеш требует доли секунды (даже если он в ram) или сотни миллисекунд если вручную с диска загружать. Ему пофиг сколько там было токенов, он либо работает либо нет (у облачных провайдеров плата за токены кеша потому что они занимают ресурсы, пока лежат в памяти и ждут)

perebour May 30 at 09:43

Прекращайте насиловать карты и соберите их в горизонтальный продуваемый майнерский корпус.

Если потребительский корпус, то лучше Phanteks Enthoo Pro 2 не будет, но и он не вывозит толком.

Температура ГПУ совершенно не важна, а вот память ужарите.

Квантования 8бит предостаточно для кодинга и вообще всего бытового, ниже - хуже

Плотные модели лучше ведут себя на длине, лучше трейдят и мыслят, меньше циклятся

Оперативки предостаточно 1:1 к объему VRAM, зачем этот daisy chain?

MTP зарешал скорость очень прилично, скорости инференса теперь предостаточно на 3090, плотные победили.

Карты М2 соединить нвлинком и будет шикарно

Первое - уйти на нативный Линукс, прекратить изврат с wsl

На сотые адаптеры из Китая лучше не смотреть, это EOL архаизм с помойки

evgeniy_kudinov May 30 at 09:55

Имеет ли смысл на "материнку" ASRock X870E Taichi Lite ставить 2 проходника с M2 на PCE чтобы было 4x5090ti или нет?

MxMaks May 30 at 10:38

Не стоит, убъешь ненароком и pci-e линий там не хватит. Система на Asus Pro WS со скромным серверным процом +ecc выйдет немного дороже одной 5090 но 16x прямая линия на каждую карту и сбалансировано супер.

rPman May 30 at 18:28

вы цены на серверные процессоры давно смотрели? особенно про сокет вашего варианта asus pro ws

MxMaks May 30 at 19:59

ryzen 7955WX 140 тыр, 128 pic-e линий, + ws + 64 gb ecc впритык к 5090 rtx за 370 тыс руб.

evgeniy_kudinov Jun 4 at 14:15

Поздно узнал про серверные 128 pci-e линии для vram. Возможно для второго "домового" буду глядеть в эту сторону).

Liugger May 30 at 12:34

В вашем случае, если есть средства на 4 rtx 5090, то лучше рассмотреть HEDT материнскую плату и сборку компа на ней, будет возможность параллелить расчеты не так как у меня в статье. А при использовании vLLM или ik_llama, вообще использовать тензорный параллелизм. Инференс будет заметно быстрее.

Если новая сборка не рассматривается, то можно и пару переходников поставить, будете крутить модели больше, чем у меня примерно в 2 раза быстрее. Но не забудьте про охлаждение, на чтении промта, сами видели диаграммы, видеокарты греются - у меня в корпусе ураган, поэтому проблем нет. А 5090 греются заметно больше

С термином "сжечь" pci линии я не знаком, не думаю что есть такая опасность

evgeniy_kudinov Jun 4 at 14:13

Извиняюсь, опечатался, не 5090, а 5060it. Но вроде разобрался пока, как у вас взял m2-PCE 5.0x16, и вроде "Big LLM" сообщила, что потери будут 10–20% в скорости инференса. Для моих экспериментов, я думаю, это не сильно будет проблемой, так как мне нужно больше VRAM.

Barnaby May 30 at 10:51

Вы забыли про попадание в кэш - например возьмем последний дипсик с того же ор с попаданием в 80% и получим уже 3721.60р - т.е. меньше чем вы отдали за электричество :)

А еще есть подписки, где инференс обойдется в 5-6 раз дешевле.

Smolensk May 30 at 11:24

Скорость эскадры равна скорости самого медленного корабля (с). В системе из нескольких GPU узким местом является шина PCIe. Максимум, на который можно рассчитывать в 2026 году — это PCIe v5.0 x16: 63.015 GB/s или 504 Gbps сырой пропускной способности. Это в 5-10 раз медленнее актуального NVLink, поэтому уже компромисс. Но среди топового бытового железа максимум, что можно получить — мать на два слота по 8 линий, а с 4 картами больше чем по 4 линии на каждую выделить не получится в принципе. Далее, карта 3090 ещё и понизит PCIe до v4, т.е. будет работать в 8 раз медленнее, чем хотелось бы. Итого всё будет работать в 40-80 раз медленнее, чем если бы было одной единой картой. Получается, что если планировать рассудительно, то про бытовое железо лучше было бы забыть сразу, а купить системную плату с четырьмя PCIe v4.0 x16 под EPYC Zen2 или Zen3 — это примерно 50 тыр (вместе с CPU). Хотя если планировать рассудительно, то и этого этапа, вероятно бы не было…

nikulin_krd May 30 at 11:48

Основной массивный обмен данными происходит при первой загрузке модели и warmup, далее обмен снижается и даже 4х pci-e 4.0 достаточно для обмена данными между картами

perebour May 30 at 12:02

Все вышесказанное справедливо исключительно при тензором параллелизме.

При пайплайн параллелизме слои делятся горизонтально между картами, результаты вычислений в слоях передаются от карты к карте мгновенно и весят буквально килобайты

Для инференса этого предостаточно, вычислительная мощность упирается лишь в способности самих карт, а не в передачу данных.

В таком режиме топовые карты могут спокойно работать и на псие 3.0 х4, хватит с избытком.

Поэтому вся ваша математика тут бесполезна.

POPSuL Jun 6 at 05:33

А как быть с тем, что gpu-z показывает bus load ~100%, при этом сама загрузка GPU ~40% на x4 4.0? :)

kuza2000 May 30 at 14:33

Итого всё будет работать в 40-80 раз медленнее, чем если бы было одной единой картой. Получается, что если планировать рассудительно, то про бытовое железо лучше было бы забыть сразу

Все зависит от задачи. Для референса llm шина не является узким местом. Коллега запускал модель на 3х 5080, каждая из которых была подключена на pci 4x. У него скорость получилась немного больше, чем у меня на одной 5090. То есть, увеличивая карты, увеличиваем vram. Производительность при этом не падает, хотя и не масштабируется, да.

Shado_vi May 30 at 11:46

у 3090 ti чипы памяти стандартно расположены.

у 3090 же расположение специфичное: часть чипов с обратной стороны платы.
об их охлаждении задумались только 2.5 бреда, MSI и EVGA.
можно прогнозировать у владельцев других видеокарт проблемы с чипами памяти, особенно со временем. и тем более бу.
а вы по какому критерию выбирали GPU?

Liugger May 30 at 14:05

Вообще изначально хотел все 3090 ti, но понял что не получится по финансам. Так что выбор был в наиболее эффективном получении гигабайтов VRAM совместно с теми критериями, которые я привел в тексте

Spiritschaser May 30 at 11:50

мало PCI-e слотов, но есть достаточно M2 (те, что для SSD),

Хочу в ноутбуке подключить для инференса какую-нибудь NVIDIA с 32-48Гб. Но SSD разъём только один. Можно ли подключить в wifi M2?

Liugger May 30 at 14:07

Теоритически да, практически же я читал на Reddit про точно такую же ситуацию и оказалось, что m2 под wi-fi залочен на каком-то глубоком уровне и ничего кроме wi-fi не принимает. Либо ищите в интернетах какова у вас ситуация, либо поэкспериментируйте. Более хороших советов у меня нет

Pandem May 30 at 12:52

Хороший практический разбор. Самое полезное, на мой взгляд, наблюдение про layer split: много GPU даёт возможность запустить модель крупнее, но не превращается автоматически в рост tokens/sec, особенно если шина между картами не серверного уровня. Для агентского кодинга я бы ещё отдельно мерил не только скорость чтения/генерации, а time-to-useful-diff: сколько времени проходит от постановки задачи до рабочего изменения в репозитории. Там важны не только t/s, но и prefill на большом контексте, устойчивость tool calling, поведение на повторных правках и способность нормально чинить ошибки после тестов. Было бы интересно увидеть такой тест: один и тот же небольшой проект, одна задача, прогон тестов, потом просьба исправить failing test. И сравнить Qwen3.6-27B, Qwen3.6-35B-A3B и Qwen3.5-122B-A10B не по синтетике, а по тому, кто быстрее доводит diff до состояния “можно коммитить”.

Liugger May 30 at 14:11

Примерно этим сейчас и занимаюсь, прогоняю одну задачу через несколько LLM с одинаковыми агентами. Правда изначально не планировал, поэтому сравнить получится только качество результата и способность вносить правки. Ну ещё мое субъективное мнение о качестве в процессе

SabMakc May 30 at 13:21

Что-то генерация совсем медленная. Может из-за замеров на полном контексте, но навскидку даже Strix Halo быстрее будет, при пропускной способности памяти в 4 раза ниже.

Да и по графикам видно, что что-то не то - разница между Qwen3.6-35B-A3B и Qwen3.6-27B в BF16 должна быть в разы, а не на десятки процентов (для Q8_K_XL разница в tg адекватная).

Liugger May 30 at 14:16

Прочитывая как у других работают подобные сборки тоже было впечатление, что у меня что-то не так. И я тоже предполагал, что большинство замеров делаются на смешном контексте, у меня же замеры и использование, в основном, на уже большом контексте.

В будущем перейду на Линукс с vLLM, думаю там поправится ситуация. Пишут что vLLM + Линукс на 20-30% больше скорости генерации и чтения дадут.

SabMakc May 30 at 14:44

Для Qwen3.6-35B-A3B и Qwen3.6-27B разница:

Q8_K_XL - более чем в 5 раз
BF16 - в 1.25 раза.

Разные кванты дают разную скорость - это так. Но пропорция должна сохраняться. Тем более, для BF16 в 2 раза крупнее модель - в идеале, скорость в эти 2 раза и должна упасть (что опять же не наблюдается).

Да, могут быть нюансы, но точно выбивается Qwen3.6-35B-A3B-BF16 - она должны быть сильно быстрее.

dkeiz May 30 at 14:02

статья конечно полезная и интересная, но чет результаты инференса совсем унылые. mtp не работает? vllm не даст больше?
может к черту печку, скинуть лишнее, оставить одну 3090 для префила и воткнуть ryzen 395, или грядущий 495 на 192gb? Хотя это живые деньги, но собирать 4x3090 ради 20т/с, такое.

Liugger May 30 at 14:19

MTP не использую пока не починят мультмодалку, так как у меня в пайплайне агентов есть анализ скриншотов. Подумываю на тему llama-swap, чтобы использовать не-MTP тогда когда нужга обработка изображений, но пока не было времени разобраться

dkeiz May 30 at 16:19

не то чтобы я тут суперсоветчик, но для vl - работы хватило бы и qwen9bVL, а это прям совсем можно в виртуалке запускать, или в своем контейнере, тем более памяти у вас с запасом под такие задачи.
Да и в целом, qwen120 у вас работает, заставьте его разбираться, пусть напишет вам конфиги :)
Ещё раз, спасибо за материал, приятно такое читать в рунете.

Liugger May 30 at 17:14

Благодарю за отзыв, тоже приятно, что кто-то находит полезным

По моим опытам qwen3.6-35B-A10B в 8 битном квантовании не справляется с анализом скриншотов дашбордов. Один из моих агентов - это ux/ui тестировщик, который ищет недочёты в визуальной составляющей дашбордов. Названная модель упускала такие вещи как слипшиеся надписи, пустоты между диаграммами, верстка диаграммы по середине, вместо всей ширины страницы.

У qwen3.6-27B в том же кванте таких проблем нет.

Может для классификации 9b модель подходит, но для анализа, скорее всего нет.

Смотрел небольшое сравнение в задачах OCR, сравнивали специализированные модели и qwen3.6-35B-A3B.

Qwen почти везде уделал специализированные модели, причем со значительным превосходством

Я вот что-то не подумал, что можно модель попросить прописать конфиги и настроить все, спасибо за наводку)

rPman May 30 at 18:36

все быстрые vl с большим объемом информации (особенно текстовой) - лажают, потому что там окно контекста на котором его обучали, маленький.

проведите простейший эксперимент, закидывайте в контекст N картинок с вопросом поиска на них какой-нибудь определенной и смотрите сколько получается input токенов и как часто ошибается модель... скриптик такой агент пишет за пару минут, например у qwen3.6-35b-a3b где то на уровне 8к токенов, потом качество резко падает.

VO_Obsidian May 30 at 14:10

не на майнерском, не на серверном или не на HEDT, а именно на пользовательском железе.
мало PCI-e слотов

А ещё линий PCI-e. Внимание вопрос - зачем жрать кактус? У вас получается что DDR5 целых 192 Гб, зато два канала - всего ~60 ГБ/с пропускной способности. Причем сейчас оперативка такая стоит под 200к если не больше.

Берём с али хуанан под epyc, сам б/у epyc 7xx2, ещё б/у ddr4 2400 восьмиканальную. Всё удовольствие обойдется в менее чем 100к. На 2400 уже будет ~150 ГБ/с, если удастся разогнать можно и все 200 ГБ/с. Есть конечно нюансы с архитектурой контроллера памяти, но всё же. Ещё бонусом целых 128 линий PCI-e 4.0, для перебрасывания данными между видеокартами быстрее будет только NVLink.

melodictsk May 30 at 15:02

Выбор платформы и сборка вызывает много вопросов. Вот смотрю авито, мать + тредрипер 3960х стоит 90к. 4х канальная память даст псп как у топовой ддр5. Можно удобно вставить все ваши 3090 и обьеденить через нвлинк. А ещё есть всякие плюшки на подобие 10гб сети. Больших б/у корпусов навалом за дёшево. А при нормальной компоновке можно и общий контур водянки собрать.

MxMaks May 30 at 16:34

Рипер уж хотя бы 7 поколение.

whoh May 30 at 15:08

Моя бюджетная лайт-версия :) Из 2x P106-100 и 3x P106-90 Скорости чуть больше, чем DDR5 RAM, но мне обошлось в 6 тыс.руб, а цены на ddr5 сами знаете

alex1478 May 30 at 18:33

Обстановка вокруг - моё почтение. Настоящий "киберпанк, который мы заслужили"

Akr0n May 31 at 14:43

Забавнее, что человек, видимо, открутил колеса от обогревателя и поставил их на ПК, что логично, теперь же он вместо батареи будет :)

malyazin_2010 May 31 at 15:27

У меня 3 штуки р106-100

vagon333 May 30 at 15:39

Интересный проект и замечательная печка. Респект!
Ноуты не рассматривали?

Живу в тёплых краях, поэтому дополнительное отопление не нужно.
Поэтому, вместо десктопа, гоняю inference на двух ноутах (Dell Precision 7560 с NVIDIA RTX A5000 16 ГБ GPU RAM).

Использую для ASR, TTS, плюс AI Assistant.

Liugger May 30 at 17:18

У меня помимо того ПК, что в статье, есть ещё один чисто игровой и ноут достаточно мощный с rtx 3070 ti laptop. На них другие задачи, основной мой инструмент все же указанная в статье сборка. Над совмещением в кластер как-то не думал. А если имеете в виду, что купить ноут как устройство для инференса, то я, честно говоря, не могу понять в чем у него будут преимущества

vagon333 May 30 at 17:57

А если имеете в виду, что купить ноут как устройство для инференса, то я, честно говоря, не могу понять в чем у него будут преимущества

Всего одно: тишина.
В кладовке гостевой спальни 8 Dell Precision и можно спать (а может просто гостям деваться некуда :).
Ну, и UPS не нужен.

m0tral May 31 at 03:46

Таки мобильность еще

keep4rv May 30 at 18:05

Не буду рассуждать по поводу экономики проекта, но скажу точно что сборку необходимо было стоить на свитче plx88096 с 5 pciex 4 по 16 линий, а не страдать с 4мя линиями на карту

Liugger May 30 at 18:10

Буквально вчера узнал о существовании таких устройств, но насколько я понимаю они не сильно дешевле хорошей видеокарты, требуют некоторых танцев с бубном и специальных драйверов для GPU

rPman May 30 at 18:42

я правильно понимаю, он подключается на pcie5 16x и выдает 4x pcie4 16x, и это без проблем работает с десктопным железом?

Liugger May 30 at 20:15

Там хитрая система. Свитч позволяет работать видекартам напрямую (при поддержке драйвером), используя их полную пропускную способность по pci-e, без необходимости ходить данным к процессору. Также свитч использует тот факт, что pci двунаправленный, то есть он может отдавать и принимать информацию одновременно на полной скорости, но только в рамках устройств подключенных к одному свичу.

Общение со всеми устройствами за рамками свича происходят со скоростью подключения свича к материнской плате.

Для LLM и ML подходящий девайс. Только стоит недешево

evgeniy_kudinov May 31 at 03:06

это не про эту вещь?

это

или это

MaximKiselev May 30 at 19:10

Сейчас дорого все собирать. А по факту я раньше тоже хотел. Но пользовавшийся многими моделями - понял, что запустить что то хорошее стоит около 10,5 млн рублей, это мы не включаем электричество и другие комплектующие , цена только не ускорители. Qwen - не очень качественная модель, по крайне мере для кода (до сих пор много глюков). Гарантий , то что вендорв и дальше будут выкладывать веса в открытый доступ тоже не. А общем такое себе… Охотно иметь что то как приставка для телевизора или мак мини с нормальный TDP и уровнем шума. Было бы конечно круто если б асики допили под этого дело, вроде как были серии асиков тихих для домашнего использования вот это было бы тема норм. И по цене чтобы не сильно дорого.

fermentum May 30 at 19:29

Я бы попробовал покрутить даунвольт, немного снизить частоты ядра, поднять частоты VRAM. Не только температура и потребление снизятся существенно, но и скорость генерации может вырасти за счет памяти.

Leadmagneet May 30 at 19:32

96 Гб ничего стоящего не запустить. Если только квантированные версии. По качеству будет проигрывать солидно современные sota моделям + у вас память ОЗУ узкое горло тоже самый. Инференс может быть долгим. Самапал из разъемов будет тоже сложно обслуживать из за амортизации. Лучше а6000 2 штуки поставить было?

Liugger May 30 at 19:55

Конечно лучше 2х a6000, но ещё лучше 8х Blackwell 6000 + epyc + 2 ТБ 12-канальной памяти.

Три видюхи к уже существующему ПК + обслуживание и обвязка вышли мне примерно в 250 тыс - досточно много для хобби, но все ещё дешевле даже одной А6000 в два раза. Я бы очень хотел железо, чтобы быстро работали LLM типа Kimi 2.6 без квантований и с полным контекстом, но в подобной задаче оптимизации, к моей бесконечной печали, всегда есть ограничение в виде бюджета

rPman May 30 at 19:34

Совет, попробуйте llama.cpp server с экспериментальной опцией --split-mode tensor, при batch-size/ubatch-size больше 512 скорость заметно растет, но квантизация кеша не доступна, требования к памяти чуть чуть растут и другие нюансы.

если у вас памяти vram чуть больше чем необходимо, настоятельно рекомендую vllm, туда фичи, связанные именно с запуском на gpu реализуют в первую очередь, а llama.cpp опосредованно, с упором на универсальность и возможность запуска с ram.

Liugger May 30 at 19:59

Вижу vLLM как следующий шаг для оптимизаци.

А tensor parallelism требует хорошей шины обмена данными между видеокартами - это не мой случай

nikulin_krd May 30 at 20:25

Чтобы повысить скорость обмена рассмотри переходники для bifuraction(если материнка позволяет) На Алике есть с модами 8х+8х и 4х+4х+4х+4х из одного 16х

here-we-go-again May 31 at 07:27

Игрушка хорошая, но экономически бессмысленно. Получил слабые модели со скоростью улитки и 2квт потребления. По цене 2х лет подписки на онлайн модель (и это без учета цены электричества, только opex), которая даже с лимитами суммарно выдаст куда больший roi.

murkin-kot May 31 at 08:12

Подскажите плиз, как вы делали крепление для 3-ей и 4-й карт? К каким местам корпуса оно цепляется? Какие материалы? Какое оборудование использовано? Сколько дыр наделано в корпусе что бы надёжно крепить? Вообще, надёжность там есть или чуть толкнул и оно отпадёт? Может статью про это напишете, для самоделкиных зайдёт.

Liugger May 31 at 14:53

Я что третью, что четвертую видеокарты крепил на черные стяжки, поэтому из может и не видно. На Видеокарте либо на декоративных элементах, либо на решетке со стороны портов есть места куда можно стяжки продеть.

В корпусе сверху рама для крепления радиаторов. Рассчитана на радиаторы шириной до 140 м, у меня там два с шириной 120 мм, соответственно есть место, где закрепиться стяжками.

От видюхи до верхней рамы несколько стяже скреплено друг с другом.

Держится хорошо, можно корпус перемешать и ничего не произойдёт. Каждая видеокарта закреплена в трёх точках. Сами карты конечно качаются, если трясти корпус, но в очень узком диапазоне

Я не задумывался как крепить буду, у меня богатый опыт и инструментарий остался с времён колхозинга, когда обладал электровелосипедои типа "мопед" - придумал бы что-то. Но придумывать и не пришлось

murkin-kot Jun 1 at 05:32

Шлейфы от райзеров передают усилие при качании карты на разъём. Разъём не крепится никак, только на трении держится. Поэтому после ряда качаний разъём может сыграть плохую шутку. Надеюсь катру или мать не убьёт, но кто его знает, как там ситуация сложится.

m_ax1m May 31 at 11:58

По стоимости это точно не имеет никакого смысла. За 40 долларов можно подписку какого-нибудь минимакс купить, там неограниченные токены почти что, и 300 млрд параметров.

arthuru1 May 31 at 15:37

За это статьи еще не придумали у нас?

Bardakan May 31 at 18:54

Хранилище: 3xSSD, 3xHDD. В рамках статьи важно, что используются 3 M2 SSD при 5 слотах на материнке. Суммарно более 18 Тб места: можно много моделей держать и тестировать.
GPU: (2xRTX 3090 + 2xRTX 3090Ti):

т.е. вы задействовали 7 слотов pci-e (3 на ssd и 4 на видеокарты). Я правильно понимаю, что у вас материнка даже на 4 видеокарты не рассчитана (скорость pci-e будет падать), а вы ее еще больше замедлили, использовав ssd?

Liugger May 31 at 19:59

В Материнской плате 2 PCI-e слота и 5 M2-слотов, всего 7. 4 Из них заняты видеокартами: 2 pci-e, и 2 с помощью переходника M2 -> pci-e.
"Не рассчитана" - очень странное понятие. Если вы используете больше 1 PCI-e и некоторые слоты M2, то у вас автоматически включается бифуркация, во всяком на тех мат. платах, что я знаю. То есть "не рассчитанной" на использование всех доступных слотов потребляющих линии pci-e материнская плата не может быть в принципе.

Bardakan Jun 1 at 06:02

1)я о том, что pcie делит пропускную способность с m2. Это не полностью отдельные линии

2)линий pcie может не хватить. Правда тогда несколько устройств не определяются системой. Я лично встречал ситуацию, когда в старой mAtx материнке отказались одновременно работать видеокарта и sas контроллер

К вам все еще вопрос - а так ли нужны там m2 ssd, которые режут пропускную способность видеокартам?

Liugger Jun 1 at 06:41

1) ну так и я про то же)

2) не встречал таких случаев.

У меня на материнской плате, упрощенно, схема бифуркации такова, что если используются два pci-e слота, то на каждый придется по 8 линий. Если подключить хотя бы один из M2, которые подключенны к линиям CPU, то включается режим бифуркации 4+4+4+4 линии, при этом не важно, что четвёртый слот М2 можно пустовать.

Есть 2 слота М2, подключенных к чипсету (особенность именно x870e) и не влияющих на pci-e слоты.

У меня сейчас 3 SSD подключены к тем М2, которые подключены к процессору, а видеокарты через те, что к чипсету. Теоритически я бы мог подключить видеокарты через те М2, что к чипсету, а остальные М2 оставить пустыми. Тогда 2 видеокарты работали бы на 8 линиях и две на 4 линиях. Но я физически не могу создать такую конфигурацию. В этом случае переходники встают на место, а вот райзер я уже не могу подключить - мешают другие элементы на материнской плате.

Если бы стабильно работали переходники со встроенными райзерами, то получилось бы, я пробовал. Но они нестабильные.

Да и если бы я так смог сделать, то максимальная теоритическая скорость общения с хранилищем была бы 600 мб/с с помощью SATA SSD. Не сильно плохо, но грузить модель весом в 80 Гб в память пришлось бы больше двух минут. В этом сценарии отваливается вариант использования, например, llama-swap, который позволяет менять модели на лету, в зависимости от того, что передаст клиент.

Bardakan Jun 1 at 07:21

2 - там на плате всего два слота pcie было, и решилось заменой материнки с matx на atx (с другим чипсетом). Проц был core i3 3240, первая материнка - biostar h61mgv3, вторая вроде Gigabyte GA-Z77-D3H

d00m911 Jun 6 at 22:10

А зачем вам скорость PCIe для инференса? Она влияет только на время загрузки модели в видеопамять, а дальше вообще почти пофиг, в каком там режиме работает видеокарта. Для обучения это критически важно, для генерации нет.

apatkin May 31 at 19:46

Тоже было желание собрать что-то подобное на 4х 3090. Как я понял, результат все равно получился не айс. Учитывая, что карты все равно будут выходить из строя и цена сборки продолжит расти.

x10der May 31 at 20:26

Скорости генерации прям грустные какие-то. Кажись, было бы эффективнее взять серверную материнку с озона вместе с процессором и памятью ddr4.

Anton1906 Jun 1 at 11:18

Это всё конечно хорошо, только вот вместе с этой сборкой придется в помещение устанавливать кондиционер повышенной мощности, потому что 2 кВт - это мощный обогреватель, который в летнюю жару очень быстро перегреет помещение. И еще не нужно забывать о массовых случаях оплавления разъемов питания у 3090.

Region102 Jun 2 at 11:49

Потреб сборки имеют много нюансов:

Количество PCIe слотов, линий и их скорость.
Потреб материнки не умеют прямой обмен GPU - CPU - GPU, они все обязательно гонят через ОЗУ.

Сейчас проще взять серверную мат плату и эпик прошлых поколений, вы получаете полноценные слоты PCIe 4x16, эпики отлично держать все эти линии и соответственно поддержка всех серверных фич на уровне инференсов vLLM и т.п.

Для меня локальный инференс это не экономия на токенах, а подстелить соломки если отрубят интернет. Тот же claude code за 100$ в месяц может кодить 24/7, но нужна нормальная обвязка в виде vpn, gmail и карта американская для оплаты, что очень затруднительно в современных реалиях. В остальных случаях можно улететь в бан. Но ребята из kimi спасают, есть проблема с оплатой, но за то не надо парится с региональной маскировкой.

Сейчас мой топ QWEN 3.6 27B, квант Q6 на llama.cpp с включенным MTP на двух 5070 ti выдает 60-70t/s генерации на задаче кодирования, творческие ~45t/s. Когда замержат турбоквант от гугла и MTP в основную ветку, тогда на том же оборудовании контекст будет под сотку и запускаться будет без танцев с бубном.

Я выбрал 5070 ti так как сейчас они дороже 3090 всего на 20-30тыс, и я покупаю их новые с гарантией, плюс новые чипы поддерживают все новые фишки, что может значительно ускорять инференс. И существует опасность того, что в ближашие годы 3090 просто выпилят из новых библиотек и будем мучаться собирая все из исходников, как случилось с tesla v100.

В общем всем удачи, а я же чуть позже докуплю еще пару 5070 ti и поставлю всю сборку на кастомную воду.

MaxEkb77 Jun 3 at 20:48

2x5070ti дают примерно 90ts на nvfp4 27b :)

Region102 Jun 5 at 11:09

Можете подсказать какая точно модель использовалась и параметры сборки инференса. А то у меня такие показатели только вот так получаются:

cmake -B build
-DGGML_CUDA=ON
-DGGML_NATIVE=ON
-DGGML_OPENMP=ON
-DGGML_CUDA_F16=ON
-DGGML_CUDA_FA=ON
-DGGML_CUDA_GRAPHS=ON
-DGGML_CUDA_NCCL=ON
-DCMAKE_BUILD_TYPE=Release
-DLLAMA_BUILD_BORINGSSL=ON
-DLLAMA_OPENSSL=ON
-DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc
-DCMAKE_CUDA_ARCHITECTURES=120

CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8096 --flash-attn on --spec-draft-n-max 4 --spec-type draft-mtp --split-mode tensor

MaxEkb77 Jun 9 at 02:20

у меня как то так это выглядело. n-max у меня помоему 2. и еще разделение по картам tensor-split что ли.

set CUDA_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.3

set NVCC=“%CUDA_PATH%\bin\nvcc.exe”

set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_CUDA=ON set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_CUDA_COMPRESSION_MODE=balance set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_CUDA_FA=ON set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_CUDA_FA_ALL_QUANTS=ON set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_CUDA_GRAPHS=ON set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_CUDA_NCCL=ON set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_CUDA_NO_PEER_COPY=ON set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_NATIVE=OFF set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_OPENMP=OFF set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_AVX512=ON set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_AVX512_VNNI=ON set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_AVX512_BF16=ON set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_LLAMAFILE=OFF set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_LTO=ON set CMAKE_ARGS=!CMAKE_ARGS! -DCMAKE_CUDA_ARCHITECTURES=“120” set CMAKE_ARGS=!CMAKE_ARGS! -DCUDAToolkit_ROOT=“%CUDA_PATH%” set CMAKE_ARGS=!CMAKE_ARGS! -DCMAKE_BUILD_TYPE=Release set CMAKE_ARGS=!CMAKE_ARGS! -DGGML_CUDA_CUB_3DOT2=ON set CMAKE_ARGS=!CMAKE_ARGS! -DLLAMA_LLGUIDANCE=ON set CC=C:/Program Files/LLVM/bin/clang-cl.exe set CXX=C:/Program Files/LLVM/bin/clang-cl.exe set CMAKE_ARGS=!CMAKE_ARGS! -DCMAKE_C_FLAGS=“/arch:AVX512 -Wno-cast-qual” set CMAKE_ARGS=!CMAKE_ARGS! -DCMAKE_CXX_FLAGS=“/arch:AVX512 /EHsc -Wno-cast-qual”

d00m911 Jun 6 at 22:13

Просто северные мат платы для проф.задач AI(обучения, к примеру) - это такое же дерьмо, в нормальных решениях используются специальные коммутаторы Broadcom, которые позволяют обойти разные ограничения.

Region102 Jun 9 at 06:53

А можно подробнее описать какие ограничения снимают специальные коммутаторы Broadcom?

Liugger Jun 9 at 12:35

Я думаю, речь идёт о pci switch.

d00m911 Jun 6 at 22:04

Тоже LLM-печку на игровой материнке собирал (знаю, выглядит ужасно, и так нельзя). Пришлось найти огромный корпус на EATX и два БП (увы, приколхозил стяжками). В итоге, получилось 72 Гб VRAM и 128 RAM. Поскромнее, чем у вас, но очень хорошая для моих задач конфигурация)

Но видяхи 4080, две 4070 ti super, ещё была 7900 xtx, но я отказался от её использования, так как пришлось работать через вулкан.

greypo Jun 7 at 13:55

Я бы наверное вынес все эти видео карты вне корпуса, используя длинные переходники