Comments 98
Вы срваниваете по цене локальные токены с сетевыми токенами. Но gpt или claude по подписке дешевле в разы, чем покупать токены у них, а возможности сейчас практичесеи неограничены для бытового применения.
Для такой локальной сборки намного лучше майнинговый двухэтажный корпус с двумя бп.
Но gpt или claude по подписке дешевле в разы
сомнительная тема, увы
ладно, что баны можно поймать при эмуляции человеческого поведения через АПИ
но, (особенно клод этим славится), они ж, гады, еще и постоянно ползунки качества моделей под капотом двигают (типа, ой, конкурент че-то пошел в рост, - надо срочно давать качество юзерам/пришло время экономить - режем размышление и ставим квантование), что делает бессмысленным ряд задач, например, исследовательских
>Для такой локальной сборки намного лучше майнинговый двухэтажный корпус с двумя бп.
Та да, не понимаю человека, который потратился на 4 3090, но не захотел намутить МП с нужным количеством и скоростью PCIe + просторный корпус (ок, оно может иметь инженерную красоту, когда карты красиво стоят плотным рядом, и нет избыточного места, но, не когда из-за этого страдает принципиальная функциональность)
"""А если мы еще и не покупаем по новому роллс-ройсу каждый месяц """ - классная аналогия, очень образная!
Плюс 100500 за Crysis!
К сожалению у вас получился монстр Франкенштейна) Первая проблема - корпус не предназначенный для установки такого количества GPU, стоило смотреть что-то большое, типа Super Full Tower, например Corsair Link 9000D. Второй момент - перевести все GPU на воду, убрать родные водяные радиаторы, а лучше вообще выкинуть вместе с установленным водоблоком, там проходные отверстия часто слишком узкие и сложно прокачать воду через несколько последовательных блоков, лучше взять одинаковые от того же Alphacool (у них на старые модели скидки, для 3090 сейчас по 49 евро водоблок) и поставить 3-4 толстых медных качественных радиатора типа 420х40-60 или 560/600(под 200 вентиляторы), если корпус позволяет, с хорошими кулерами (хорошие в смысле дающие напор минимум 3-4 мм H2O). Плюс хорошая помпа способная прокачать такое сопротивление (на том же Али есть мощностью по 50 w) и обязательно датчик потока, который может отключить систему если помпа встанет, если важно продолжать работать - ставите сдвоенную помпу.
Я в свое время думал собрать, что то подобное, но использовать 3090/4090 не эффективно, можно загрузить только не совсем умные модели, оптимально брать б/у a100 80Gb 4-8 шт, но такая сборка не окупится никогда( даже если ее с токенами Opus сравнивать.
Собирал я сборку на основе того что уже было, а изначально про multi-gpu не думал.
Корпус, что вы предложили хорош и даже больше, но, на мой взгляд, не критично больше.
А вообще, я думал, что если когда-нибудь решусь на переход к следующем уровню, то корпусом будет thermaltake core w200 - бескомпромиссный вариант, особенно, если приобрести к нему пьедестал. Кастомная вода - это топ и мечта, очень хотелось бы, но встаёт вопрос финансов и поиска водоблоков для зоопарка RTX 3090. А если собирать не на этих видюхах, то вопрос финансов становится очень острым.
Всё уже придумано до нас. Я тоже был в поисках идеального корпуса, но как оказалось стоечные для этого подходят лучше всего. В них продумано и стекирование и прохождение воздушных потоков и хорошая доступность для манипуляций внутри. Как бонус - это самый компактный вид при достаточно плотном размещении внутри.
Вот пример этих красавцев (вписываются в 3U-4U, не такие уж и длинные, при желании можно поставить боком и будут выглядеть как tower.)
Скрытый текст


Что касается шума, то всё оптимально - стандартные 120мм вентиляторы из потребительского сегмента.
Вопрос в стоимости. Вот когда-то мной был приобретен Corsair Obsidian 1000D. В нем можно даже 2 системы разместить и при этом это Tower и по поводу воздушных потоков - там все настолько продуманно и прекрасно, что из тихих решений чуть ли не лучшее
Если задача собрать из того что уже есть, тогда естественно, вопросов нет. Но если планируется что-то специально подбирать на будущее, то я бы советовал стоечные. По поводу цены, да эти готовые что на фото стоят наверное порядочно, но это всего лишь как эталонная реализация, на авито полно б/у корпусов по адекватной цене, нужно всего лишь подобрать 3-4U высотой, с возможностью размещения стандартной десктопной материнки, как показал беглый поиск таковые имеются. Конечно у них может не быть перевёртыша (I/O shield и слоты расширения на морде где включение питания), но этого нет и на обычных десктопах. Конечно, это по большей части вкусовщина, но стоечный можно поставить и боком и в стойку запихнуть, а десктоп башню только на полку в стойку и то габариты или меньше или больше будут, могут и не влезть. Стойка это не обязательно шкаф из датацентра на 36/42 юнита, есть вполне домашние 6-12 юнитов, которые как тумбочка на колёсиках - вроде и по-взрослому, но в домашнюю обстановку вписываются. С десктопами же придётся колхозить если больше одного.
У меня в доме стоит 15-ка, но с глубиной 600, чего маловато для серверов, да я и не хотел бы сервак туда ставить - шума много. А так там стоит пару коммутаторов - PoE и 10Gb + контроллер точек(все Ubiquity), двухюнитовый бесперебойник, Synology NAS и патч панелька.
Стандартные сервера с EATX укладываются в 600 вполне, те же супермикро 823/825, IBM eServer Series, корпоративные АТС... ну не знаю что можно ещё длиннее для дома придумать. Это если мерить 600 между вертикальными крепежами, сам-то шкаф получается чуть длиннее за счёт пространства от них и между дверцами передней и задней. Стандартные серверные вентиляторы (40 и 80) воют из-за оборотов в 7к-15к rpm, конечно шумно, десктопные 120 на 1,5к-2к приемлемо, а если их ещё по температуре теплоносителя регулировать, что редко где делается, тогда вообще при нагрузке от нейросетей дома будет почти тишина.
Корпус неплохой но по цене еще одной 3090)). Жаль поздно узнал о нем, уже купил Lianli 011 evo xl. Для эконом суперсборки exegate pro 8-430 вне конкуренции. Туда пятая сэкономленная на этом корпусе 3090 как раз зайдет и с бп проблем не будет.
Если зашла речь про А100 то Н200 минимум)
Если нужна селф окупаемость то на cpu ddr5-ecc возможно чтото вытянуть системе.
Королями таких сборок обычно являются Corsair Obsidian 5000D и 9000D
А100 80Gb по соотношению цена/объем выигрывает если не нужна максимальная производительность. А100 80Gb можно бу взять по 5-6к + адаптер SXM4 $550. в половину от RTX PRO 6000 Blackwell. Плюс у А100 есть nvlink. Бюджет конечно не на поиграться, но если проект как-то монетизировать не такая уж и фантастика.
На счет монетизации… да у меня руки тоже к жужжащему железу лежат… но как opus-4.8 окупать я знаю и успешно этим занимаюсь, а как окупать такую хоум сборку - нет.
А где можно 80гб версию взять за 5-6к? Я вижу только 40гб версию за эти деньги. Так что разницы в цене с 6000 pro нет
Да их полно. Бывают и дешевле, видел как-то лот из 10 штук, за 45к, но он быстро ушел. https://www.ebay.com/shop/a100-80gb?_nkw=a100+80gb&_sop=15
Табличка довольно спорная, не учитываются возможности новых методов квантования, которые поддерживаются новыми чипами nvidia
Пробовал на rtx 5090 с 32Гб модель 80B, получил скорость 70+ т/с с контекстом 32к, и 40+ с контекстом 256к. Контекст заполнял полностью. Модель Qwen3-Coder-Next-UD-IQ4_XS.
И это не только мои наблюдения. На Reddit натыкался на посты о бессмысленности перехода с 2-x Blackwell 6000 на 4 штуки, так как единственная модель, которая становится доступна это Qwen3.5-397B-A17B. Отдавать ради такого более 10 тыс. грязных зеленых бумажек - не сильно рационально.
Очень странно… на 4-х 6000 pro можно развернуть kimi-k2.6 квантованную
Я не понимаю почему кто-то решил минус влепить и не обосновать))) Kimi-k2.6 это MoE модель, которая позволяет экспертов сгружать в оперативную память. 380Гб VRAM это достаточно, чтобы держать достаточно большое количество экспертов и большой контекст в VRAM, тем самым ускоряя инференс. Читаем https://unsloth.ai/docs/models/kimi-k2.6
на процессоре очень медленно, причем проблема даже не в скорости генерации, а в скорости чтения input. очередной /compact в opencode будет десятки минут ковырять, а еще llama.cpp постоянно кеш куда то девает (для не vision моделей можно вручную сохранять на диск, даже прокси есть которая это делает автоматически) а это значит, в случайный момент времени ваша беседа с агентом может уйти в десятименутный анализ длинного контекста.
Сколько всего ушло на это? 500к?
Эта печка позволяет чувствовать себя "свободным фермером с 4 гектарами" в мире, разделяющимся на корпорации, владеющие тысячами стоек с новейшим железом, и всех остальных, вынужденных бесплатно или платно пользоваться llm (если тебе предоставят возможность, если будет интернет,...)
Ну не знаю ... 4 RTX 3090 это примерно как одна 5090 по цене.
Вот с rtx 5090( Limited to 400W by nvidia-smi) & epyc 7443 + 8xddr4-2400+ 1000W power supply:
88GB Qwen3.5-122B-A10B-UD-Q5_K_XL ctx-size = 131072 : 34 t/s
37GB Qwen3.6-35B-A3B-UD-Q8_K_XL ctx-size = 131072 : 100 t/s
18GB Qwen3.6-27B-UD-Q4_K_XL ctx-size = 262144 : 66 t/s
21GB Qwen3.6-35B-A3B-MXFP4_MOE ctx-size = 262144 : 208 t/s
292GB Qwen3.5-397B-A17B-UD-Q4_K_XL ctx-size = 232144: 18 t/s
28GB gemma-4-26B-A4B:Q8 ctx-size = 262144 : 87 t/s
gemma-4-26B-A4B-it-UD-Q4_K_XL+mmproj ctx-size = 131072: 180 t/s
57G Qwen3-Coder-Next-UD-Q5_K_XL ctx-size = 262144: 73 t/s
Потребление замеренное на розетке в простое 160W , в обсчете меньше 600W.
Да вот и я про то же. Скорее всего, для llmок выгоднее набирать линейку из 5080 по 16к. Во первых, чип быстрее. Во вторых, новые режимы квантования. В третих pci 5.0.
+1, у автора какие-то совсем унылые цифры производительности получились.
У меня 2x RTX 5080 Ti (в сумме 32GB VRAM) даёт цифры всего немного ниже ваших:
qwen-3.6-27b ctx-size = 262144: 40 t/s
qwen-3.6-35b-a3b ctx-size = 262144: 135 t/s
Какой смысл городить конструкцию из 4x GPU и получить < 10 t/s… Это даже для текстового чатика неприятно медленно.
Было интересно прочитать, спасибо за практический опыт.
Какой момент заметил: сравнивать цены только по входящим и выходящим токенам не совсем корректно, сейчас ввелось еще понятие как кешированные токены (повторяющийся контекст) и они в 10 раз примерно дешевле чем просто входные токены, а занимает порой 90+%. Я выгружал свою статистику из кодекса - 99.7% за май у меня это кешированный контекст gpt 5.4.
Input - 600k, cache input - 160M, output - 700k
GPT 5.4 price - input $2.50/M, cached input $0.25/M, output $15.00/M.
это примерно 52$ с учетом кэширования.
Про кеширование - локальные сервера выигрывают под ноль, буквально.
Кеш требует доли секунды (даже если он в ram) или сотни миллисекунд если вручную с диска загружать. Ему пофиг сколько там было токенов, он либо работает либо нет (у облачных провайдеров плата за токены кеша потому что они занимают ресурсы, пока лежат в памяти и ждут)
Прекращайте насиловать карты и соберите их в горизонтальный продуваемый майнерский корпус.
Если потребительский корпус, то лучше Phanteks Enthoo Pro 2 не будет, но и он не вывозит толком.
Температура ГПУ совершенно не важна, а вот память ужарите.
Квантования 8бит предостаточно для кодинга и вообще всего бытового, ниже - хуже
Плотные модели лучше ведут себя на длине, лучше трейдят и мыслят, меньше циклятся
Оперативки предостаточно 1:1 к объему VRAM, зачем этот daisy chain?
MTP зарешал скорость очень прилично, скорости инференса теперь предостаточно на 3090, плотные победили.
Карты М2 соединить нвлинком и будет шикарно
Первое - уйти на нативный Линукс, прекратить изврат с wsl
На сотые адаптеры из Китая лучше не смотреть, это EOL архаизм с помойки
Имеет ли смысл на "материнку" ASRock X870E Taichi Lite ставить 2 проходника с M2 на PCE чтобы было 4x5090ti или нет?
Не стоит, убъешь ненароком и pci-e линий там не хватит. Система на Asus Pro WS со скромным серверным процом +ecc выйдет немного дороже одной 5090 но 16x прямая линия на каждую карту и сбалансировано супер.
В вашем случае, если есть средства на 4 rtx 5090, то лучше рассмотреть HEDT материнскую плату и сборку компа на ней, будет возможность параллелить расчеты не так как у меня в статье. А при использовании vLLM или ik_llama, вообще использовать тензорный параллелизм. Инференс будет заметно быстрее.
Если новая сборка не рассматривается, то можно и пару переходников поставить, будете крутить модели больше, чем у меня примерно в 2 раза быстрее. Но не забудьте про охлаждение, на чтении промта, сами видели диаграммы, видеокарты греются - у меня в корпусе ураган, поэтому проблем нет. А 5090 греются заметно больше
С термином "сжечь" pci линии я не знаком, не думаю что есть такая опасность
Вы забыли про попадание в кэш - например возьмем последний дипсик с того же ор с попаданием в 80% и получим уже 3721.60р - т.е. меньше чем вы отдали за электричество :)
А еще есть подписки, где инференс обойдется в 5-6 раз дешевле.
Скорость эскадры равна скорости самого медленного корабля (с). В системе из нескольких GPU узким местом является шина PCIe. Максимум, на который можно рассчитывать в 2026 году — это PCIe v5.0 x16: 63.015 GB/s или 504 Gbps сырой пропускной способности. Это в 5-10 раз медленнее актуального NVLink, поэтому уже компромисс. Но среди топового бытового железа максимум, что можно получить — мать на два слота по 8 линий, а с 4 картами больше чем по 4 линии на каждую выделить не получится в принципе. Далее, карта 3090 ещё и понизит PCIe до v4, т.е. будет работать в 8 раз медленнее, чем хотелось бы. Итого всё будет работать в 40-80 раз медленнее, чем если бы было одной единой картой. Получается, что если планировать рассудительно, то про бытовое железо лучше было бы забыть сразу, а купить системную плату с четырьмя PCIe v4.0 x16 под EPYC Zen2 или Zen3 — это примерно 50 тыр (вместе с CPU). Хотя если планировать рассудительно, то и этого этапа, вероятно бы не было…
Основной массивный обмен данными происходит при первой загрузке модели и warmup, далее обмен снижается и даже 4х pci-e 4.0 достаточно для обмена данными между картами
Все вышесказанное справедливо исключительно при тензором параллелизме.
При пайплайн параллелизме слои делятся горизонтально между картами, результаты вычислений в слоях передаются от карты к карте мгновенно и весят буквально килобайты
Для инференса этого предостаточно, вычислительная мощность упирается лишь в способности самих карт, а не в передачу данных.
В таком режиме топовые карты могут спокойно работать и на псие 3.0 х4, хватит с избытком.
Поэтому вся ваша математика тут бесполезна.
Итого всё будет работать в 40-80 раз медленнее, чем если бы было одной единой картой. Получается, что если планировать рассудительно, то про бытовое железо лучше было бы забыть сразу
Все зависит от задачи. Для референса llm шина не является узким местом. Коллега запускал модель на 3х 5080, каждая из которых была подключена на pci 4x. У него скорость получилась немного больше, чем у меня на одной 5090. То есть, увеличивая карты, увеличиваем vram. Производительность при этом не падает, хотя и не масштабируется, да.
у 3090 ti чипы памяти стандартно расположены.
у 3090 же расположение специфичное: часть чипов с обратной стороны платы.
об их охлаждении задумались только 2.5 бреда, MSI и EVGA.
можно прогнозировать у владельцев других видеокарт проблемы с чипами памяти, особенно со временем. и тем более бу.
а вы по какому критерию выбирали GPU?
мало PCI-e слотов, но есть достаточно M2 (те, что для SSD),
Хочу в ноутбуке подключить для инференса какую-нибудь NVIDIA с 32-48Гб. Но SSD разъём только один. Можно ли подключить в wifi M2?
Хороший практический разбор. Самое полезное, на мой взгляд, наблюдение про layer split: много GPU даёт возможность запустить модель крупнее, но не превращается автоматически в рост tokens/sec, особенно если шина между картами не серверного уровня. Для агентского кодинга я бы ещё отдельно мерил не только скорость чтения/генерации, а time-to-useful-diff: сколько времени проходит от постановки задачи до рабочего изменения в репозитории. Там важны не только t/s, но и prefill на большом контексте, устойчивость tool calling, поведение на повторных правках и способность нормально чинить ошибки после тестов. Было бы интересно увидеть такой тест: один и тот же небольшой проект, одна задача, прогон тестов, потом просьба исправить failing test. И сравнить Qwen3.6-27B, Qwen3.6-35B-A3B и Qwen3.5-122B-A10B не по синтетике, а по тому, кто быстрее доводит diff до состояния “можно коммитить”.
Что-то генерация совсем медленная. Может из-за замеров на полном контексте, но навскидку даже Strix Halo быстрее будет, при пропускной способности памяти в 4 раза ниже.
Да и по графикам видно, что что-то не то - разница между Qwen3.6-35B-A3B и Qwen3.6-27B в BF16 должна быть в разы, а не на десятки процентов (для Q8_K_XL разница в tg адекватная).
Прочитывая как у других работают подобные сборки тоже было впечатление, что у меня что-то не так. И я тоже предполагал, что большинство замеров делаются на смешном контексте, у меня же замеры и использование, в основном, на уже большом контексте.
В будущем перейду на Линукс с vLLM, думаю там поправится ситуация. Пишут что vLLM + Линукс на 20-30% больше скорости генерации и чтения дадут.
Для Qwen3.6-35B-A3B и Qwen3.6-27B разница:
Q8_K_XL - более чем в 5 раз
BF16 - в 1.25 раза.
Разные кванты дают разную скорость - это так. Но пропорция должна сохраняться. Тем более, для BF16 в 2 раза крупнее модель - в идеале, скорость в эти 2 раза и должна упасть (что опять же не наблюдается).
Да, могут быть нюансы, но точно выбивается Qwen3.6-35B-A3B-BF16 - она должны быть сильно быстрее.
статья конечно полезная и интересная, но чет результаты инференса совсем унылые. mtp не работает? vllm не даст больше?
может к черту печку, скинуть лишнее, оставить одну 3090 для префила и воткнуть ryzen 395, или грядущий 495 на 192gb? Хотя это живые деньги, но собирать 4x3090 ради 20т/с, такое.
MTP не использую пока не починят мультмодалку, так как у меня в пайплайне агентов есть анализ скриншотов. Подумываю на тему llama-swap, чтобы использовать не-MTP тогда когда нужга обработка изображений, но пока не было времени разобраться
не то чтобы я тут суперсоветчик, но для vl - работы хватило бы и qwen9bVL, а это прям совсем можно в виртуалке запускать, или в своем контейнере, тем более памяти у вас с запасом под такие задачи.
Да и в целом, qwen120 у вас работает, заставьте его разбираться, пусть напишет вам конфиги :)
Ещё раз, спасибо за материал, приятно такое читать в рунете.
Благодарю за отзыв, тоже приятно, что кто-то находит полезным
По моим опытам qwen3.6-35B-A10B в 8 битном квантовании не справляется с анализом скриншотов дашбордов. Один из моих агентов - это ux/ui тестировщик, который ищет недочёты в визуальной составляющей дашбордов. Названная модель упускала такие вещи как слипшиеся надписи, пустоты между диаграммами, верстка диаграммы по середине, вместо всей ширины страницы.
У qwen3.6-27B в том же кванте таких проблем нет.
Может для классификации 9b модель подходит, но для анализа, скорее всего нет.
Смотрел небольшое сравнение в задачах OCR, сравнивали специализированные модели и qwen3.6-35B-A3B.
Qwen почти везде уделал специализированные модели, причем со значительным превосходством
Я вот что-то не подумал, что можно модель попросить прописать конфиги и настроить все, спасибо за наводку)
все быстрые vl с большим объемом информации (особенно текстовой) - лажают, потому что там окно контекста на котором его обучали, маленький.
проведите простейший эксперимент, закидывайте в контекст N картинок с вопросом поиска на них какой-нибудь определенной и смотрите сколько получается input токенов и как часто ошибается модель... скриптик такой агент пишет за пару минут, например у qwen3.6-35b-a3b где то на уровне 8к токенов, потом качество резко падает.
не на майнерском, не на серверном или не на HEDT, а именно на пользовательском железе.
мало PCI-e слотов
А ещё линий PCI-e. Внимание вопрос - зачем жрать кактус? У вас получается что DDR5 целых 192 Гб, зато два канала - всего ~60 ГБ/с пропускной способности. Причем сейчас оперативка такая стоит под 200к если не больше.
Берём с али хуанан под epyc, сам б/у epyc 7xx2, ещё б/у ddr4 2400 восьмиканальную. Всё удовольствие обойдется в менее чем 100к. На 2400 уже будет ~150 ГБ/с, если удастся разогнать можно и все 200 ГБ/с. Есть конечно нюансы с архитектурой контроллера памяти, но всё же. Ещё бонусом целых 128 линий PCI-e 4.0, для перебрасывания данными между видеокартами быстрее будет только NVLink.
Выбор платформы и сборка вызывает много вопросов. Вот смотрю авито, мать + тредрипер 3960х стоит 90к. 4х канальная память даст псп как у топовой ддр5. Можно удобно вставить все ваши 3090 и обьеденить через нвлинк. А ещё есть всякие плюшки на подобие 10гб сети. Больших б/у корпусов навалом за дёшево. А при нормальной компоновке можно и общий контур водянки собрать.

Моя бюджетная лайт-версия :) Из 2x P106-100 и 3x P106-90 Скорости чуть больше, чем DDR5 RAM, но мне обошлось в 6 тыс.руб, а цены на ddr5 сами знаете
Интересный проект и замечательная печка. Респект!
Ноуты не рассматривали?
Живу в тёплых краях, поэтому дополнительное отопление не нужно.
Поэтому, вместо десктопа, гоняю inference на двух ноутах (Dell Precision 7560 с NVIDIA RTX A5000 16 ГБ GPU RAM).
Использую для ASR, TTS, плюс AI Assistant.
У меня помимо того ПК, что в статье, есть ещё один чисто игровой и ноут достаточно мощный с rtx 3070 ti laptop. На них другие задачи, основной мой инструмент все же указанная в статье сборка. Над совмещением в кластер как-то не думал. А если имеете в виду, что купить ноут как устройство для инференса, то я, честно говоря, не могу понять в чем у него будут преимущества
А если имеете в виду, что купить ноут как устройство для инференса, то я, честно говоря, не могу понять в чем у него будут преимущества
Всего одно: тишина.
В кладовке гостевой спальни 8 Dell Precision и можно спать (а может просто гостям деваться некуда :).
Ну, и UPS не нужен.
Не буду рассуждать по поводу экономики проекта, но скажу точно что сборку необходимо было стоить на свитче plx88096 с 5 pciex 4 по 16 линий, а не страдать с 4мя линиями на карту
Буквально вчера узнал о существовании таких устройств, но насколько я понимаю они не сильно дешевле хорошей видеокарты, требуют некоторых танцев с бубном и специальных драйверов для GPU
я правильно понимаю, он подключается на pcie5 16x и выдает 4x pcie4 16x, и это без проблем работает с десктопным железом?
Там хитрая система. Свитч позволяет работать видекартам напрямую (при поддержке драйвером), используя их полную пропускную способность по pci-e, без необходимости ходить данным к процессору. Также свитч использует тот факт, что pci двунаправленный, то есть он может отдавать и принимать информацию одновременно на полной скорости, но только в рамках устройств подключенных к одному свичу.
Общение со всеми устройствами за рамками свича происходят со скоростью подключения свича к материнской плате.
Для LLM и ML подходящий девайс. Только стоит недешево
это не про эту вещь?
это

или это

Сейчас дорого все собирать. А по факту я раньше тоже хотел. Но пользовавшийся многими моделями - понял, что запустить что то хорошее стоит около 10,5 млн рублей, это мы не включаем электричество и другие комплектующие , цена только не ускорители. Qwen - не очень качественная модель, по крайне мере для кода (до сих пор много глюков). Гарантий , то что вендорв и дальше будут выкладывать веса в открытый доступ тоже не. А общем такое себе… Охотно иметь что то как приставка для телевизора или мак мини с нормальный TDP и уровнем шума. Было бы конечно круто если б асики допили под этого дело, вроде как были серии асиков тихих для домашнего использования вот это было бы тема норм. И по цене чтобы не сильно дорого.
Я бы попробовал покрутить даунвольт, немного снизить частоты ядра, поднять частоты VRAM. Не только температура и потребление снизятся существенно, но и скорость генерации может вырасти за счет памяти.
96 Гб ничего стоящего не запустить. Если только квантированные версии. По качеству будет проигрывать солидно современные sota моделям + у вас память ОЗУ узкое горло тоже самый. Инференс может быть долгим. Самапал из разъемов будет тоже сложно обслуживать из за амортизации. Лучше а6000 2 штуки поставить было?
Конечно лучше 2х a6000, но ещё лучше 8х Blackwell 6000 + epyc + 2 ТБ 12-канальной памяти.
Три видюхи к уже существующему ПК + обслуживание и обвязка вышли мне примерно в 250 тыс - досточно много для хобби, но все ещё дешевле даже одной А6000 в два раза. Я бы очень хотел железо, чтобы быстро работали LLM типа Kimi 2.6 без квантований и с полным контекстом, но в подобной задаче оптимизации, к моей бесконечной печали, всегда есть ограничение в виде бюджета
Совет, попробуйте llama.cpp server с экспериментальной опцией --split-mode tensor, при batch-size/ubatch-size больше 512 скорость заметно растет, но квантизация кеша не доступна, требования к памяти чуть чуть растут и другие нюансы.
если у вас памяти vram чуть больше чем необходимо, настоятельно рекомендую vllm, туда фичи, связанные именно с запуском на gpu реализуют в первую очередь, а llama.cpp опосредованно, с упором на универсальность и возможность запуска с ram.
Игрушка хорошая, но экономически бессмысленно. Получил слабые модели со скоростью улитки и 2квт потребления. По цене 2х лет подписки на онлайн модель (и это без учета цены электричества, только opex), которая даже с лимитами суммарно выдаст куда больший roi.
Подскажите плиз, как вы делали крепление для 3-ей и 4-й карт? К каким местам корпуса оно цепляется? Какие материалы? Какое оборудование использовано? Сколько дыр наделано в корпусе что бы надёжно крепить? Вообще, надёжность там есть или чуть толкнул и оно отпадёт? Может статью про это напишете, для самоделкиных зайдёт.
Я что третью, что четвертую видеокарты крепил на черные стяжки, поэтому из может и не видно. На Видеокарте либо на декоративных элементах, либо на решетке со стороны портов есть места куда можно стяжки продеть.
В корпусе сверху рама для крепления радиаторов. Рассчитана на радиаторы шириной до 140 м, у меня там два с шириной 120 мм, соответственно есть место, где закрепиться стяжками.
От видюхи до верхней рамы несколько стяже скреплено друг с другом.
Держится хорошо, можно корпус перемешать и ничего не произойдёт. Каждая видеокарта закреплена в трёх точках. Сами карты конечно качаются, если трясти корпус, но в очень узком диапазоне
Я не задумывался как крепить буду, у меня богатый опыт и инструментарий остался с времён колхозинга, когда обладал электровелосипедои типа "мопед" - придумал бы что-то. Но придумывать и не пришлось
По стоимости это точно не имеет никакого смысла. За 40 долларов можно подписку какого-нибудь минимакс купить, там неограниченные токены почти что, и 300 млрд параметров.
За это статьи еще не придумали у нас?
Хранилище: 3xSSD, 3xHDD. В рамках статьи важно, что используются 3 M2 SSD при 5 слотах на материнке. Суммарно более 18 Тб места: можно много моделей держать и тестировать.
GPU: (2xRTX 3090 + 2xRTX 3090Ti):
т.е. вы задействовали 7 слотов pci-e (3 на ssd и 4 на видеокарты). Я правильно понимаю, что у вас материнка даже на 4 видеокарты не рассчитана (скорость pci-e будет падать), а вы ее еще больше замедлили, использовав ssd?
В Материнской плате 2 PCI-e слота и 5 M2-слотов, всего 7. 4 Из них заняты видеокартами: 2 pci-e, и 2 с помощью переходника M2 -> pci-e.
"Не рассчитана" - очень странное понятие. Если вы используете больше 1 PCI-e и некоторые слоты M2, то у вас автоматически включается бифуркация, во всяком на тех мат. платах, что я знаю. То есть "не рассчитанной" на использование всех доступных слотов потребляющих линии pci-e материнская плата не может быть в принципе.
1)я о том, что pcie делит пропускную способность с m2. Это не полностью отдельные линии
2)линий pcie может не хватить. Правда тогда несколько устройств не определяются системой. Я лично встречал ситуацию, когда в старой mAtx материнке отказались одновременно работать видеокарта и sas контроллер
К вам все еще вопрос - а так ли нужны там m2 ssd, которые режут пропускную способность видеокартам?
1) ну так и я про то же)
2) не встречал таких случаев.
У меня на материнской плате, упрощенно, схема бифуркации такова, что если используются два pci-e слота, то на каждый придется по 8 линий. Если подключить хотя бы один из M2, которые подключенны к линиям CPU, то включается режим бифуркации 4+4+4+4 линии, при этом не важно, что четвёртый слот М2 можно пустовать.
Есть 2 слота М2, подключенных к чипсету (особенность именно x870e) и не влияющих на pci-e слоты.
У меня сейчас 3 SSD подключены к тем М2, которые подключены к процессору, а видеокарты через те, что к чипсету. Теоритически я бы мог подключить видеокарты через те М2, что к чипсету, а остальные М2 оставить пустыми. Тогда 2 видеокарты работали бы на 8 линиях и две на 4 линиях. Но я физически не могу создать такую конфигурацию. В этом случае переходники встают на место, а вот райзер я уже не могу подключить - мешают другие элементы на материнской плате.
Если бы стабильно работали переходники со встроенными райзерами, то получилось бы, я пробовал. Но они нестабильные.
Да и если бы я так смог сделать, то максимальная теоритическая скорость общения с хранилищем была бы 600 мб/с с помощью SATA SSD. Не сильно плохо, но грузить модель весом в 80 Гб в память пришлось бы больше двух минут. В этом сценарии отваливается вариант использования, например, llama-swap, который позволяет менять модели на лету, в зависимости от того, что передаст клиент.
Тоже было желание собрать что-то подобное на 4х 3090. Как я понял, результат все равно получился не айс. Учитывая, что карты все равно будут выходить из строя и цена сборки продолжит расти.
Скорости генерации прям грустные какие-то. Кажись, было бы эффективнее взять серверную материнку с озона вместе с процессором и памятью ddr4.
Это всё конечно хорошо, только вот вместе с этой сборкой придется в помещение устанавливать кондиционер повышенной мощности, потому что 2 кВт - это мощный обогреватель, который в летнюю жару очень быстро перегреет помещение. И еще не нужно забывать о массовых случаях оплавления разъемов питания у 3090.
Потреб сборки имеют много нюансов:
Количество PCIe слотов, линий и их скорость.
Потреб материнки не умеют прямой обмен GPU - CPU - GPU, они все обязательно гонят через ОЗУ.
Сейчас проще взять серверную мат плату и эпик прошлых поколений, вы получаете полноценные слоты PCIe 4x16, эпики отлично держать все эти линии и соответственно поддержка всех серверных фич на уровне инференсов vLLM и т.п.
Для меня локальный инференс это не экономия на токенах, а подстелить соломки если отрубят интернет. Тот же claude code за 100$ в месяц может кодить 24/7, но нужна нормальная обвязка в виде vpn, gmail и карта американская для оплаты, что очень затруднительно в современных реалиях. В остальных случаях можно улететь в бан. Но ребята из kimi спасают, есть проблема с оплатой, но за то не надо парится с региональной маскировкой.
Сейчас мой топ QWEN 3.6 27B, квант Q6 на llama.cpp с включенным MTP на двух 5070 ti выдает 60-70t/s генерации на задаче кодирования, творческие ~45t/s. Когда замержат турбоквант от гугла и MTP в основную ветку, тогда на том же оборудовании контекст будет под сотку и запускаться будет без танцев с бубном.
Я выбрал 5070 ti так как сейчас они дороже 3090 всего на 20-30тыс, и я покупаю их новые с гарантией, плюс новые чипы поддерживают все новые фишки, что может значительно ускорять инференс. И существует опасность того, что в ближашие годы 3090 просто выпилят из новых библиотек и будем мучаться собирая все из исходников, как случилось с tesla v100.
В общем всем удачи, а я же чуть позже докуплю еще пару 5070 ti и поставлю всю сборку на кастомную воду.

Как я собрал LLM-печку на 4 GPU, и на что она способна