Обновить

Комментарии 1

Qwen3.5 в варианте 35B вместо 397B

Мне такого показалось мало.
А вот это в самый раз - то что надо - для оперативных задач на каждый день:
Qwen3-Coder-Next-UD-Q4_K_XL.gguf
Запускаю через llama.cpp на шести p102-100, получается 60gb vram .
Этого хватает на модель и контекст. ( 25 tokens/sec)

Скрытый текст

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5 "/opt/llm/llama-server" \
-m "/mnt/Models/qwen/Qwen3-Coder-Next-UD-Q4_K_XL.gguf" \
--host 0.0.0.0 \
--port 8085 \
--jinja \
-a "sk-no-key-required" \
-fa on \
--fit on \
--cache-type-v q4_1 \
--cache-type-k q4_1 \
--main-gpu 5 \
--no-context-shift \
--temp 1.0 \
--top-k 40 \
--top-p 0.95 \
--repeat_penalty 1.05 \
--repeat_last_n 64 \
--min-p 0.01 \
--ctx-size 262144 \
--batch-size 512 \
--cache-ram 2048 \
--parallel 1 \
-n 32768

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации