@SlavikF Oct 5 at 00:43

Запускаем Qwen3-VL-30B на 48GB VRAM

Easy

3 min

10K

Artificial IntelligenceMachine learning *

Tutorial

+11

Comments 9

@DrrRos Oct 5 at 08:04

Для Gpt-OSS 120b - ~64Гб это и есть нативный размер, её тренировали в mxfp4, емнип.

@RealFSA Oct 5 at 09:57

примерно пару часов назад, какие-то добрые люди собрали лламуцпп для qwen3vl
https://www.reddit.com/r/LocalLLaMA/comments/1nyhjbc/qwen3vl30ba3bthinking_gguf_with_llamacpp_patch_to/

и даже выложили много красивых бинарников для этого.
https://github.com/Thireus/llama.cpp/releases/tag/tr-qwen3-vl-b6906-26dd953

Спасибо им за это.

@RealFSA Oct 5 at 12:59

Добавлю!
GGUF для Thinking и mmproj брал здесь https://huggingface.co/yairpatch/Qwen3-VL-30B-A3B-Thinking-GGUF
Instruct модель здесь https://huggingface.co/yairpatch/Qwen3-VL-30B-A3B-Instruct-GGUF
на Radeon RX 7900 XTX (24Gb) очень бодро летает. даже с несколькими изображениями.

@4external Oct 5 at 21:17

Я использовал 4х-битный квант - MXFP4 (63.4GB)

а как вы её запускаете?

@SlavikF Oct 5 at 21:21

У меня 2 карточки:

RTX 4090D 48GB
RTX 3090 24GB

Запускаю вот так:

services:
  llama-server:
    image: ghcr.io/ggml-org/llama.cpp:full-cuda
    container_name: gpt-120b
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              capabilities: [gpu]
    ports:
      - "36000:36000"
    volumes:
      - /home/slavik/.cache:/root/.cache
    entrypoint: ["./llama-server"]
    command: >
      --hf-repo ggml-org/gpt-oss-120b-GGUF
      --alias "local-gpt120b"
      --host 0.0.0.0  --port 36000
      --ctx-size 131072
      --jinja
      --temp 1.0  --top-p 1.0  --top-k 0  --min-p 0.01
      --chat-template-kwargs '{"reasoning_effort": "high"}'

Но у этой модели скорость будет нормальной даже, если часть модели будет в RAM, не на GPU.

@4external Nov 16 at 20:10

Спасибо!

@krote Oct 6 at 10:14

у меня эта модель видит намного хуже чем gemma-3, и текст и объекты выдумывает несуществующих деталей больше чем может разглядеть существующих.
качал Qwen3-VL-30B-A3B-Instruct-Q4_K_M.gguf и mmproj-Qwen3-VL-30B-A3B-F16.gguf

параметры вначале пробовал дефолтные, потом такие

llama-server.exe -m Qwen3-VL-30B-A3B-Instruct-Q4_K_M.gguf --mmproj mmproj-Qwen3-VL-30B-A3B-F16.gguf -c 8192 --port 8080 --top-k 20 --temp 0.7 --top-p 0.8 --repeat-penalty 1.05

никак не улучшило ситуацию, фантазирует очень сильно и выдает в основном несуществующую инфу на фото

@monolithed Oct 10 at 10:49

У меня без квантизации тесты показали ± тот же результат.

@NeKonn Nov 7 at 05:54

а в llama-cpp-python работает?
Я просто пытался запустить через скрипт питона с этой оберткой и постоянно получал ошибку:

llama_model_load: error loading model: error loading model architecture: unknown model architecture: 'qwen3vlmoe'

llama_model_load_from_file_impl: failed to load model

Exception ignored in: <function LlamaModel.__del__ at 0x0000029C1909D3A0>

И не могу понять, то ли сама обертка не поддерживает пока еще новые qwen3vl, то ли я что-то не так делаю