На 2xRTX3090 + 2x3090 ti получаю с pipeline-параллелизмом сопоставимые скорости генерации этих моделей на около пустом контексте без МТР. Но зато без квантований ни модели, ни кэша, размер контекста 262144.
Но вот скорость чтения промпта от 1000 до 1450 токенов в секунду.
Если хотите использовать одновременно несколько локальных моделей, о не думали использовать llama-swap? Он выгружает/загружает модели в зависимости от того что просит клиент. Сам никак не доберусь ибо остановился на qwen 3.6 27b
У меня на материнской плате, упрощенно, схема бифуркации такова, что если используются два pci-e слота, то на каждый придется по 8 линий. Если подключить хотя бы один из M2, которые подключенны к линиям CPU, то включается режим бифуркации 4+4+4+4 линии, при этом не важно, что четвёртый слот М2 можно пустовать.
Есть 2 слота М2, подключенных к чипсету (особенность именно x870e) и не влияющих на pci-e слоты.
У меня сейчас 3 SSD подключены к тем М2, которые подключены к процессору, а видеокарты через те, что к чипсету. Теоритически я бы мог подключить видеокарты через те М2, что к чипсету, а остальные М2 оставить пустыми. Тогда 2 видеокарты работали бы на 8 линиях и две на 4 линиях. Но я физически не могу создать такую конфигурацию. В этом случае переходники встают на место, а вот райзер я уже не могу подключить - мешают другие элементы на материнской плате.
Если бы стабильно работали переходники со встроенными райзерами, то получилось бы, я пробовал. Но они нестабильные.
Да и если бы я так смог сделать, то максимальная теоритическая скорость общения с хранилищем была бы 600 мб/с с помощью SATA SSD. Не сильно плохо, но грузить модель весом в 80 Гб в память пришлось бы больше двух минут. В этом сценарии отваливается вариант использования, например, llama-swap, который позволяет менять модели на лету, в зависимости от того, что передаст клиент.
В Материнской плате 2 PCI-e слота и 5 M2-слотов, всего 7. 4 Из них заняты видеокартами: 2 pci-e, и 2 с помощью переходника M2 -> pci-e. "Не рассчитана" - очень странное понятие. Если вы используете больше 1 PCI-e и некоторые слоты M2, то у вас автоматически включается бифуркация, во всяком на тех мат. платах, что я знаю. То есть "не рассчитанной" на использование всех доступных слотов потребляющих линии pci-e материнская плата не может быть в принципе.
Я что третью, что четвертую видеокарты крепил на черные стяжки, поэтому из может и не видно. На Видеокарте либо на декоративных элементах, либо на решетке со стороны портов есть места куда можно стяжки продеть.
В корпусе сверху рама для крепления радиаторов. Рассчитана на радиаторы шириной до 140 м, у меня там два с шириной 120 мм, соответственно есть место, где закрепиться стяжками.
От видюхи до верхней рамы несколько стяже скреплено друг с другом.
Держится хорошо, можно корпус перемешать и ничего не произойдёт. Каждая видеокарта закреплена в трёх точках. Сами карты конечно качаются, если трясти корпус, но в очень узком диапазоне
Я не задумывался как крепить буду, у меня богатый опыт и инструментарий остался с времён колхозинга, когда обладал электровелосипедои типа "мопед" - придумал бы что-то. Но придумывать и не пришлось
Там хитрая система. Свитч позволяет работать видекартам напрямую (при поддержке драйвером), используя их полную пропускную способность по pci-e, без необходимости ходить данным к процессору. Также свитч использует тот факт, что pci двунаправленный, то есть он может отдавать и принимать информацию одновременно на полной скорости, но только в рамках устройств подключенных к одному свичу.
Общение со всеми устройствами за рамками свича происходят со скоростью подключения свича к материнской плате.
Для LLM и ML подходящий девайс. Только стоит недешево
Конечно лучше 2х a6000, но ещё лучше 8х Blackwell 6000 + epyc + 2 ТБ 12-канальной памяти.
Три видюхи к уже существующему ПК + обслуживание и обвязка вышли мне примерно в 250 тыс - досточно много для хобби, но все ещё дешевле даже одной А6000 в два раза. Я бы очень хотел железо, чтобы быстро работали LLM типа Kimi 2.6 без квантований и с полным контекстом, но в подобной задаче оптимизации, к моей бесконечной печали, всегда есть ограничение в виде бюджета
Буквально вчера узнал о существовании таких устройств, но насколько я понимаю они не сильно дешевле хорошей видеокарты, требуют некоторых танцев с бубном и специальных драйверов для GPU
У меня помимо того ПК, что в статье, есть ещё один чисто игровой и ноут достаточно мощный с rtx 3070 ti laptop. На них другие задачи, основной мой инструмент все же указанная в статье сборка. Над совмещением в кластер как-то не думал. А если имеете в виду, что купить ноут как устройство для инференса, то я, честно говоря, не могу понять в чем у него будут преимущества
Благодарю за отзыв, тоже приятно, что кто-то находит полезным
По моим опытам qwen3.6-35B-A10B в 8 битном квантовании не справляется с анализом скриншотов дашбордов. Один из моих агентов - это ux/ui тестировщик, который ищет недочёты в визуальной составляющей дашбордов. Названная модель упускала такие вещи как слипшиеся надписи, пустоты между диаграммами, верстка диаграммы по середине, вместо всей ширины страницы.
У qwen3.6-27B в том же кванте таких проблем нет.
Может для классификации 9b модель подходит, но для анализа, скорее всего нет.
Смотрел небольшое сравнение в задачах OCR, сравнивали специализированные модели и qwen3.6-35B-A3B.
Qwen почти везде уделал специализированные модели, причем со значительным превосходством
Я вот что-то не подумал, что можно модель попросить прописать конфиги и настроить все, спасибо за наводку)
MTP не использую пока не починят мультмодалку, так как у меня в пайплайне агентов есть анализ скриншотов. Подумываю на тему llama-swap, чтобы использовать не-MTP тогда когда нужга обработка изображений, но пока не было времени разобраться
Прочитывая как у других работают подобные сборки тоже было впечатление, что у меня что-то не так. И я тоже предполагал, что большинство замеров делаются на смешном контексте, у меня же замеры и использование, в основном, на уже большом контексте.
В будущем перейду на Линукс с vLLM, думаю там поправится ситуация. Пишут что vLLM + Линукс на 20-30% больше скорости генерации и чтения дадут.
Примерно этим сейчас и занимаюсь, прогоняю одну задачу через несколько LLM с одинаковыми агентами. Правда изначально не планировал, поэтому сравнить получится только качество результата и способность вносить правки. Ну ещё мое субъективное мнение о качестве в процессе
Теоритически да, практически же я читал на Reddit про точно такую же ситуацию и оказалось, что m2 под wi-fi залочен на каком-то глубоком уровне и ничего кроме wi-fi не принимает. Либо ищите в интернетах какова у вас ситуация, либо поэкспериментируйте. Более хороших советов у меня нет
Вообще изначально хотел все 3090 ti, но понял что не получится по финансам. Так что выбор был в наиболее эффективном получении гигабайтов VRAM совместно с теми критериями, которые я привел в тексте
В вашем случае, если есть средства на 4 rtx 5090, то лучше рассмотреть HEDT материнскую плату и сборку компа на ней, будет возможность параллелить расчеты не так как у меня в статье. А при использовании vLLM или ik_llama, вообще использовать тензорный параллелизм. Инференс будет заметно быстрее.
Если новая сборка не рассматривается, то можно и пару переходников поставить, будете крутить модели больше, чем у меня примерно в 2 раза быстрее. Но не забудьте про охлаждение, на чтении промта, сами видели диаграммы, видеокарты греются - у меня в корпусе ураган, поэтому проблем нет. А 5090 греются заметно больше
С термином "сжечь" pci линии я не знаком, не думаю что есть такая опасность
Собирал я сборку на основе того что уже было, а изначально про multi-gpu не думал.
Корпус, что вы предложили хорош и даже больше, но, на мой взгляд, не критично больше.
А вообще, я думал, что если когда-нибудь решусь на переход к следующем уровню, то корпусом будет thermaltake core w200 - бескомпромиссный вариант, особенно, если приобрести к нему пьедестал. Кастомная вода - это топ и мечта, очень хотелось бы, но встаёт вопрос финансов и поиска водоблоков для зоопарка RTX 3090. А если собирать не на этих видюхах, то вопрос финансов становится очень острым.
Как владелец сначла 3, а потом 4 rtx 3090 (2 ti, 2 обычные) полностью подтверждаю, при условии что 130 тыс токенов контекста хватает. Если возьмете 3 rtx 3090, то можно и не квантованную версию модели использовать с полным контекстом по умолчанию (262 тыс. токенов). Это лучшее что может быть сегодня за адекватные деньги. Скорость генерации высокая, скорость чтения супер высокая
Я добавил 4-ю gpu и получил возможность крутить qwen 122b-a10b q5_K_s на скорости генерации 9-11 ток/с (4000 тыс токенов контекста и ответ тоже около 4000 тыс токенов) и скорости чтения около 1600-1800 ток/сек.
Когда была только 1 видюха, то крутил эту же модель но в Q6_M с частичной выгрузкой в RAM с той же скоростью генерации, но со скоростью чтения 35-50 ток./сек. Для кодинга не было применимо, но в чате вполне хорошо.
В общем, сегодня 2 rtx 3090 - это реальный оптимум.
Кол-во видюх дает возможность запускать более крупные модели, но скорость работы не увеличивается, а только уменьшается (скорость генерации утыкается в скорость памяти а не производительность чипа,)
На 2xRTX3090 + 2x3090 ti получаю с pipeline-параллелизмом сопоставимые скорости генерации этих моделей на около пустом контексте без МТР. Но зато без квантований ни модели, ни кэша, размер контекста 262144.
Но вот скорость чтения промпта от 1000 до 1450 токенов в секунду.
Если хотите использовать одновременно несколько локальных моделей, о не думали использовать llama-swap? Он выгружает/загружает модели в зависимости от того что просит клиент. Сам никак не доберусь ибо остановился на qwen 3.6 27b
Я думаю, речь идёт о pci switch.
1) ну так и я про то же)
2) не встречал таких случаев.
У меня на материнской плате, упрощенно, схема бифуркации такова, что если используются два pci-e слота, то на каждый придется по 8 линий. Если подключить хотя бы один из M2, которые подключенны к линиям CPU, то включается режим бифуркации 4+4+4+4 линии, при этом не важно, что четвёртый слот М2 можно пустовать.
Есть 2 слота М2, подключенных к чипсету (особенность именно x870e) и не влияющих на pci-e слоты.
У меня сейчас 3 SSD подключены к тем М2, которые подключены к процессору, а видеокарты через те, что к чипсету. Теоритически я бы мог подключить видеокарты через те М2, что к чипсету, а остальные М2 оставить пустыми. Тогда 2 видеокарты работали бы на 8 линиях и две на 4 линиях. Но я физически не могу создать такую конфигурацию. В этом случае переходники встают на место, а вот райзер я уже не могу подключить - мешают другие элементы на материнской плате.
Если бы стабильно работали переходники со встроенными райзерами, то получилось бы, я пробовал. Но они нестабильные.
Да и если бы я так смог сделать, то максимальная теоритическая скорость общения с хранилищем была бы 600 мб/с с помощью SATA SSD. Не сильно плохо, но грузить модель весом в 80 Гб в память пришлось бы больше двух минут. В этом сценарии отваливается вариант использования, например, llama-swap, который позволяет менять модели на лету, в зависимости от того, что передаст клиент.
В Материнской плате 2 PCI-e слота и 5 M2-слотов, всего 7. 4 Из них заняты видеокартами: 2 pci-e, и 2 с помощью переходника M2 -> pci-e.
"Не рассчитана" - очень странное понятие. Если вы используете больше 1 PCI-e и некоторые слоты M2, то у вас автоматически включается бифуркация, во всяком на тех мат. платах, что я знаю. То есть "не рассчитанной" на использование всех доступных слотов потребляющих линии pci-e материнская плата не может быть в принципе.
Я что третью, что четвертую видеокарты крепил на черные стяжки, поэтому из может и не видно. На Видеокарте либо на декоративных элементах, либо на решетке со стороны портов есть места куда можно стяжки продеть.
В корпусе сверху рама для крепления радиаторов. Рассчитана на радиаторы шириной до 140 м, у меня там два с шириной 120 мм, соответственно есть место, где закрепиться стяжками.
От видюхи до верхней рамы несколько стяже скреплено друг с другом.
Держится хорошо, можно корпус перемешать и ничего не произойдёт. Каждая видеокарта закреплена в трёх точках. Сами карты конечно качаются, если трясти корпус, но в очень узком диапазоне
Я не задумывался как крепить буду, у меня богатый опыт и инструментарий остался с времён колхозинга, когда обладал электровелосипедои типа "мопед" - придумал бы что-то. Но придумывать и не пришлось
Там хитрая система. Свитч позволяет работать видекартам напрямую (при поддержке драйвером), используя их полную пропускную способность по pci-e, без необходимости ходить данным к процессору. Также свитч использует тот факт, что pci двунаправленный, то есть он может отдавать и принимать информацию одновременно на полной скорости, но только в рамках устройств подключенных к одному свичу.
Общение со всеми устройствами за рамками свича происходят со скоростью подключения свича к материнской плате.
Для LLM и ML подходящий девайс. Только стоит недешево
Вижу vLLM как следующий шаг для оптимизаци.
А tensor parallelism требует хорошей шины обмена данными между видеокартами - это не мой случай
Конечно лучше 2х a6000, но ещё лучше 8х Blackwell 6000 + epyc + 2 ТБ 12-канальной памяти.
Три видюхи к уже существующему ПК + обслуживание и обвязка вышли мне примерно в 250 тыс - досточно много для хобби, но все ещё дешевле даже одной А6000 в два раза. Я бы очень хотел железо, чтобы быстро работали LLM типа Kimi 2.6 без квантований и с полным контекстом, но в подобной задаче оптимизации, к моей бесконечной печали, всегда есть ограничение в виде бюджета
Буквально вчера узнал о существовании таких устройств, но насколько я понимаю они не сильно дешевле хорошей видеокарты, требуют некоторых танцев с бубном и специальных драйверов для GPU
У меня помимо того ПК, что в статье, есть ещё один чисто игровой и ноут достаточно мощный с rtx 3070 ti laptop. На них другие задачи, основной мой инструмент все же указанная в статье сборка. Над совмещением в кластер как-то не думал. А если имеете в виду, что купить ноут как устройство для инференса, то я, честно говоря, не могу понять в чем у него будут преимущества
Благодарю за отзыв, тоже приятно, что кто-то находит полезным
По моим опытам qwen3.6-35B-A10B в 8 битном квантовании не справляется с анализом скриншотов дашбордов. Один из моих агентов - это ux/ui тестировщик, который ищет недочёты в визуальной составляющей дашбордов. Названная модель упускала такие вещи как слипшиеся надписи, пустоты между диаграммами, верстка диаграммы по середине, вместо всей ширины страницы.
У qwen3.6-27B в том же кванте таких проблем нет.
Может для классификации 9b модель подходит, но для анализа, скорее всего нет.
Смотрел небольшое сравнение в задачах OCR, сравнивали специализированные модели и qwen3.6-35B-A3B.
Qwen почти везде уделал специализированные модели, причем со значительным превосходством
Я вот что-то не подумал, что можно модель попросить прописать конфиги и настроить все, спасибо за наводку)
MTP не использую пока не починят мультмодалку, так как у меня в пайплайне агентов есть анализ скриншотов. Подумываю на тему llama-swap, чтобы использовать не-MTP тогда когда нужга обработка изображений, но пока не было времени разобраться
Прочитывая как у других работают подобные сборки тоже было впечатление, что у меня что-то не так. И я тоже предполагал, что большинство замеров делаются на смешном контексте, у меня же замеры и использование, в основном, на уже большом контексте.
В будущем перейду на Линукс с vLLM, думаю там поправится ситуация. Пишут что vLLM + Линукс на 20-30% больше скорости генерации и чтения дадут.
Примерно этим сейчас и занимаюсь, прогоняю одну задачу через несколько LLM с одинаковыми агентами. Правда изначально не планировал, поэтому сравнить получится только качество результата и способность вносить правки. Ну ещё мое субъективное мнение о качестве в процессе
Теоритически да, практически же я читал на Reddit про точно такую же ситуацию и оказалось, что m2 под wi-fi залочен на каком-то глубоком уровне и ничего кроме wi-fi не принимает. Либо ищите в интернетах какова у вас ситуация, либо поэкспериментируйте. Более хороших советов у меня нет
Вообще изначально хотел все 3090 ti, но понял что не получится по финансам. Так что выбор был в наиболее эффективном получении гигабайтов VRAM совместно с теми критериями, которые я привел в тексте
В вашем случае, если есть средства на 4 rtx 5090, то лучше рассмотреть HEDT материнскую плату и сборку компа на ней, будет возможность параллелить расчеты не так как у меня в статье. А при использовании vLLM или ik_llama, вообще использовать тензорный параллелизм. Инференс будет заметно быстрее.
Если новая сборка не рассматривается, то можно и пару переходников поставить, будете крутить модели больше, чем у меня примерно в 2 раза быстрее. Но не забудьте про охлаждение, на чтении промта, сами видели диаграммы, видеокарты греются - у меня в корпусе ураган, поэтому проблем нет. А 5090 греются заметно больше
С термином "сжечь" pci линии я не знаком, не думаю что есть такая опасность
Кстати, кукурузис таки тянет, все вышедшие на сегодняшний день части)
Собирал я сборку на основе того что уже было, а изначально про multi-gpu не думал.
Корпус, что вы предложили хорош и даже больше, но, на мой взгляд, не критично больше.
А вообще, я думал, что если когда-нибудь решусь на переход к следующем уровню, то корпусом будет thermaltake core w200 - бескомпромиссный вариант, особенно, если приобрести к нему пьедестал. Кастомная вода - это топ и мечта, очень хотелось бы, но встаёт вопрос финансов и поиска водоблоков для зоопарка RTX 3090. А если собирать не на этих видюхах, то вопрос финансов становится очень острым.
Как владелец сначла 3, а потом 4 rtx 3090 (2 ti, 2 обычные) полностью подтверждаю, при условии что 130 тыс токенов контекста хватает. Если возьмете 3 rtx 3090, то можно и не квантованную версию модели использовать с полным контекстом по умолчанию (262 тыс. токенов). Это лучшее что может быть сегодня за адекватные деньги. Скорость генерации высокая, скорость чтения супер высокая
Я добавил 4-ю gpu и получил возможность крутить qwen 122b-a10b q5_K_s на скорости генерации 9-11 ток/с (4000 тыс токенов контекста и ответ тоже около 4000 тыс токенов) и скорости чтения около 1600-1800 ток/сек.
Когда была только 1 видюха, то крутил эту же модель но в Q6_M с частичной выгрузкой в RAM с той же скоростью генерации, но со скоростью чтения 35-50 ток./сек. Для кодинга не было применимо, но в чате вполне хорошо.
В общем, сегодня 2 rtx 3090 - это реальный оптимум.
Кол-во видюх дает возможность запускать более крупные модели, но скорость работы не увеличивается, а только уменьшается (скорость генерации утыкается в скорость памяти а не производительность чипа,)