Comments 6
Для Gpt-OSS 120b - ~64Гб это и есть нативный размер, её тренировали в mxfp4, емнип.
примерно пару часов назад, какие-то добрые люди собрали лламуцпп для qwen3vl
https://www.reddit.com/r/LocalLLaMA/comments/1nyhjbc/qwen3vl30ba3bthinking_gguf_with_llamacpp_patch_to/
и даже выложили много красивых бинарников для этого.
https://github.com/Thireus/llama.cpp/releases/tag/tr-qwen3-vl-b6906-26dd953
Спасибо им за это.
Добавлю!
GGUF для Thinking и mmproj брал здесь https://huggingface.co/yairpatch/Qwen3-VL-30B-A3B-Thinking-GGUF
Instruct модель здесь https://huggingface.co/yairpatch/Qwen3-VL-30B-A3B-Instruct-GGUF
на Radeon RX 7900 XTX (24Gb) очень бодро летает. даже с несколькими изображениями.
У меня 2 карточки:
RTX 4090D 48GB
RTX 3090 24GB
Запускаю вот так:
services:
llama-server:
image: ghcr.io/ggml-org/llama.cpp:full-cuda
container_name: gpt-120b
deploy:
resources:
reservations:
devices:
- driver: nvidia
capabilities: [gpu]
ports:
- "36000:36000"
volumes:
- /home/slavik/.cache:/root/.cache
entrypoint: ["./llama-server"]
command: >
--hf-repo ggml-org/gpt-oss-120b-GGUF
--alias "local-gpt120b"
--host 0.0.0.0 --port 36000
--ctx-size 131072
--jinja
--temp 1.0 --top-p 1.0 --top-k 0 --min-p 0.01
--chat-template-kwargs '{"reasoning_effort": "high"}'
Но у этой модели скорость будет нормальной даже, если часть модели будет в RAM, не на GPU.
у меня эта модель видит намного хуже чем gemma-3, и текст и объекты выдумывает несуществующих деталей больше чем может разглядеть существующих.
качал Qwen3-VL-30B-A3B-Instruct-Q4_K_M.gguf и mmproj-Qwen3-VL-30B-A3B-F16.gguf
параметры вначале пробовал дефолтные, потом такие
llama-server.exe -m Qwen3-VL-30B-A3B-Instruct-Q4_K_M.gguf --mmproj mmproj-Qwen3-VL-30B-A3B-F16.gguf -c 8192 --port 8080 --top-k 20 --temp 0.7 --top-p 0.8 --repeat-penalty 1.05
никак не улучшило ситуацию, фантазирует очень сильно и выдает в основном несуществующую инфу на фото
Запускаем Qwen3-VL-30B на 48GB VRAM