Comments 8
Qwen3.5 в варианте 35B вместо 397B
Мне такого показалось мало.
А вот это в самый раз - то что надо - для оперативных задач на каждый день:
Qwen3-Coder-Next-UD-Q4_K_XL.gguf
Запускаю через llama.cpp на шести p102-100, получается 60gb vram .
Этого хватает на модель и контекст. ( 25 tokens/sec)
Скрытый текст
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 "/opt/llm/llama-server" \
-m "/mnt/Models/qwen/Qwen3-Coder-Next-UD-Q4_K_XL.gguf" \
--host 0.0.0.0 \
--port 8085 \
--jinja \
-a "sk-no-key-required" \
-fa on \
--fit on \
--cache-type-v q4_1 \
--cache-type-k q4_1 \
--main-gpu 5 \
--no-context-shift \
--temp 1.0 \
--top-k 40 \
--top-p 0.95 \
--repeat_penalty 1.05 \
--repeat_last_n 64 \
--min-p 0.01 \
--ctx-size 262144 \
--batch-size 512 \
--cache-ram 2048 \
--parallel 1 \
-n 32768
А дорого?
Специально брал карты БУ для экспериментов
p102-100 = 6 x 3500 р = 21 т.р.
материнка, проц и память уже были были в наличии
i7-4790k, asus-z97-ws,16gb и блок питания на 1800 Вт.
Можно поискать сколько сейчас такое стоит.
Карты в режиме ожидания потребляют коло 10Вт каждая. (60вт)
Во время инференса - около 70 вт. каждая. (420Вт)
Модель автоматически разрезает по этим шести картам? У них же нет общей памяти
llama.cpp умеет и автоматически нарезать, и в ручном режиме - ей можно указать на какую карту сколько слоев, и даже - каких именно слоев - надо на карту, а сколько и каких оставить в CPU/RAM.
Проброс между картами промежуточных данных во время инференса шина pci-e выполняет достаточно быстро.
Даже х1 не создает катастрофических задержек.
А у меня две карты именно чрез райзер PCI-E 1x-16x подключены.
И ничего, все - ОК.
( здесь уточнение - именно для моего кейса - использовать одному, с комфортной скоростью около 25 т/с.
Но если задача выжать максимум т/с из дорогой карты, да еще и для многопользовательского режима, то х1 может и помешать добиться успеха)
В теории, llama.cpp может распределить модель еще и по сети - нарезанные слои на несколько машин отправить - в оперативную память, или в память видеокарт.
Но я сам не запускал в такой конфигурации.
И что-то кажется, будто нужно для такой работы 10 гигабит сеть.
Но могу ошибаться.
--cache-type-v q4_1 \--cache-type-k q4_1
Качество будет страдать, особенно на длинных контекстах
Согласен. Но это была моя попытка ускорить инференс.
Если просто убрать эти две строчки, то скорость получается 23.5 т/с
Все так же помещается в VRAM,
Разница в скорости несущественная.
Да и честно говоря, все мои вопросы эта модель
закрывает еще до того, как заполнится контекст хотя бы до 100 тыс токенов.
Поэтому, можно уменьшить контекст, и запустить на меньшем количестве карт.
Это тоже фактор ускорения инференса.
Конечно, можно и множество других параметров подстроить под свои задачи.
Зараза! Ну почему только вечером увидел?? Ходил по этим граблям с утра, не до хабра было
Свои 5 копеек: пляски с glm - 4.7 не нужны, glm5 образ нормально шуршит. И там внутри уже зашит deepgeem.sh и трансформер 5
Из коробки не работает: запускаем свежие большие LLM