Комментарии / Профиль RedFoxy2 / Хабр

Пользователь

Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

Не работает:

redfox@homeserver:~/llama.cpp/build/bin$ ./llama-server -m “/home/redfox/llama.cpp/models/qwen3/Qwen3.5-9B-UD-Q5_K_XL.gguf?download=true” -t 22 -ngl 99 --host 0.0.0.0 --port 8888 --no-mmap --spec-type draft-mtp --spec-draft-n-max 4 ggml_cuda_init: found 1 CUDA devices (Total VRAM: 8109 MiB): Device 0: NVIDIA P104-100, compute capability 6.1, VMM: yes, VRAM: 8109 MiB error while handling argument “–spec-type”: unknown speculative decoding type without draft model

(env: LLAMA_ARG_SPEC_TYPE)

to show complete usage, run with -h

Платформа Guilded (аналог Discord) закрыла доступ к ресурсу для пользователей из РФ

RedFoxy2 12 окт 2024 в 04:11

Сейчас чтобы подключится к некоторым VPN сервисам необходимо в свою очередь использовать VPN чтобы открыть сайт сервиса.