devpew Jun 2 at 12:57

Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают

Medium

5 min

21K

TypeScript * JavaScript * Go *

+51

Comments 50

jshapen Jun 2 at 13:19

Самое главное забыл написать. Какой квант и на каком оборудовании запускал.

devpew Jun 2 at 13:21

Запускал вообще вот так

pm2 start bash --name llama-server -- -c "/home/dm/llamamtp/llama.cpp/build/bin/llama-server -m /home/dm/models/qwen3-next/Qwen3.6-27B-UD-Q8_K_XL.gguf --host 0.0.0.0 --port 8080 -ngl 999 -ts 0,0 --ctx-size 262144 --batch-size 512 --ubatch-size 256 --flash-attn on --parallel 1 --temp 0.6 --top-p 0.95 --reasoning-budget 0 --spec-type draft-mtp --spec-draft-n-max 2"

Квантование Q8_K_XL

Запускалось на двух 5090

SmileyK Jun 2 at 20:48

Долго запускалась ?

man4j Jun 2 at 21:26

С sm tensor у меня на 2х 3090 80ts выдает, q8.

man4j Jun 2 at 21:31

максимум который я видел лично на 2х 3090 - 120 ts, с включенным ngram, q8. но у меня не заработало, может из за винды, фиг знает.

PKLab Jun 3 at 05:56

у меня похожие параметры запуска, но spec-draft-n-max = 4 и ctx-size = 129к (5090+5070ti) - на старте >90ts спустя 50% заполненного контекста 80ts, ризонинг включен, запускаюсь под виндой.

Kobagugi Jun 3 at 16:04

С таким железом странно было бы получить плохие результаты. Большинству такие эксперименты тупо не по карману

sergeym69 Jun 3 at 17:52

В чем проблема купить RTX3090 или переделанную RTX3080 20Gb за 46тыр от китайцаев

dartraiden Jun 19 at 06:21

CMP50HX с кустарным способом увеличенной до 20 ГБ памятью можно найти на авитах тысяч за 16.

Менее компактный вариант - несколько 10-гиговых, но зато их отдают буквально по 4-5 тысяч и в большом количестве.

andreygn Jun 5 at 06:19

Можно ссылку на модель? Не получается найти. 🙏

Saveliy2 Jun 7 at 13:52

SigmaPc. СПб авито. У них указан и некий клуб , но у меня не открывается.

Они мутантов из Китая возят на заказ. Сам склоняюсь не к таким мутантам , а к таким - ригам из CMP 90HX, реболленных из10гб GDDR6X в 20гб. с хорошими дорогими шлейфами на окьюлинк.

0whitewolf0 Jun 6 at 18:35

Скажите, с одной 5070ti что-то внятное можно сделать? Я пока экспресентирую с моделями до 12b. С контекстом 30-60к. Результаты пока так себе по коду.

rpomo3eka Jun 8 at 07:06

С одной 5070ti у меня Unsloth / Qwen3.6 35B A3B MTP GGUF UD_Q4_K_XL с контекстом 262k даёт 56 tok/s, что для меня более чем хорошо.

При этом llama-server.exe кушает всего 18Gb Ram.

Подключено через Unsloth Studio.
Unsloth Studio стартует вот так:

Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf -c 262144 --parallel 1 --flash-attn on --no-context-shift --fit on --threads -1 --jinja --cache-type-k q8_0 --cache-type-v q8_0 --spec-type ngram-mod,draft-mtp --spec-draft-n-max 3 --spec-ngram-mod-n-match 24 --spec-ngram-mod-n-min 48 --spec-ngram-mod-n-max 64

Groramar Jun 2 at 13:27

под эту модель 'Qwen3.6-27B' сколько нужно минимально видеопамяти для более-менее комфортной работы?

devpew Jun 2 at 13:31

Я бы не смотрел на квантования ниже Qwen3.6-27B-Q6_K.gguf она весит 23гб, так же надо еще место для kv cache и для контекста. Так что если ужаться то можно например взять пару карт по 16гб, а потом париться с оптимизациями

jshapen Jun 2 at 13:33

Q4 отлично работает на 3090. Это и есть рабочий минимум на сегодня

dmiche Jun 2 at 20:47

А какая скорость при этом выходит? У нас где-то 50-60, в зависимости от погоды.

jshapen Jun 2 at 21:24

30-40

dmiche Jun 2 at 21:32

Включайте mtp, он чутка добавит. На этих скоростях каждые 5т/с дороги.

jshapen Jun 2 at 22:13

Лениво. В реальной работе все равно использую только топовые облачные.

HomoLuden Jun 3 at 11:18

Q6 27B на одной rtx 4060 ti (16Gb) работает норм для меня. Попробую указанные оптимизации. Может скорость и вправду возрастёт.

vtal007 Jun 4 at 07:28

а как она (Q6 27B) влезает в 16гб ? или это магия llama.cpp

TomskDiver Jun 4 at 11:09

Никак конечно. Ну или просто часть ложится в RAM и в итоге 2 ток/с.

SabMakc Jun 4 at 11:26

А чего не Qwen3.6-36B-A3B? Модель не сильно глупее, но сильно быстрее. Да и Q4 на 50% быстрее Q6 будет.

apidev Jun 2 at 15:01

Ну, возьмём настройки, почти как в статье.

./llama-b9305/llama-server \
    --model /srv/llm/gguf/Qwen3.6-27B-MTP-Q4_K_M.gguf \
    -ngl 99 -c 262144 -fa on \
    --spec-type draft-mtp --spec-draft-n-max 2 \
    --parallel 2 \
    --reasoning-budget 0 \
    --batch-size 2048 --ubatch-size 512 \
    --presence_penalty 0.0 \
    --top-p 0.95 --top_k 20 \
    --temp 0.6 \
    --host 192.168.1.5 --port 8080

Получим следующее потребление:

Докинем туда:

--cache-type-k q8_0 --cache-type-v q8_0

Во время обработки запроса будет влезать в 32Gb

Т.е. комфортный выбор - это что-то вроде:

RTX 5090 32Gb
RTX PRO 4500 Blackwell 32Gb
Radeon AI PRO R9700 32Gb

Ну и т.д. Если режем контекст в два раза, то там уже и в 24 ужаться реально.

Понятное дело, что всё вышеуказанное потребление очень условно (тем более, что llama.cpp @ Vulkan @ Ubuntu 26.04 @ Ryzen 395 aka Radeon 8060S 32 RAM / 96 VRAM), но примерно позволяет понять потребление модели. Правда, на Ryzen 395 там 22-25 t/s генерации всего.

KoIIIeY Jun 2 at 18:55

Хватает этих скоростей для личного использования, кодит себе потихоньку (это я про райзен)

Kobagugi Jun 3 at 16:09

Можно еще попробовать оффлоад части слоев на процессор. Скорость просядет, зато влезет даже в обычную 3090 без танцев с бубном

Oeaoo Jun 2 at 13:59

Интересно как оптимизировать флоу на маке, где вроде как памяти посвободнее.

devpew Jun 2 at 14:02

Для мака прежде всего надо смотреть на формат MLX, это специально под их процессоры сделанный формат. А остальное вроде то же самое.

BjanG Jun 3 at 10:19

https://omlx.ai проект открыл мне глаза на скорость, тестировал на MoE Qwen-3.6-35-A3B , на M3Max в итоге скорость как на 5060Ti 16gb с offload нескольких слоёв, была недавно тоже статья на хабре про точную конфигурацию

dE1l Jun 2 at 19:54

Посмотри в сторону oMLX. Обработка кэша - очень долгая операция. И тут её оптимизировали.

ontop Jun 2 at 20:06

Используйте CUDA 13.3, а не 13.2 или 12.
Если интересно то можете подписывать в телеге на наш маленький чатик в котором мы обсуждаем такие темы - homelabru

Полписался бы, но у меня RDNA4.

Тоже использую llama, но 27b выдает у меня не более 40t/s.

На 35b выдает 100-110t/s.

dail45 Jun 2 at 22:26

35b это вроде MoE, так что оно и понятно что 100+ t/s

ontop Jun 3 at 05:26

Интересует насколько Moe хуже?

Еще интересно почему ниже чем 6 bit лучше не запускать, насколько качество падает?

SabMakc Jun 3 at 11:24

MoE может быть и лучше - зависит, в первую очередь, от задач.

Q6 чуть хуже Q8 на доли процента, Q4 хуже на несколько процентов.

Но большое влиянием имеет то, как квантовали - сейчас популярен imatrix - часть слоев квантуется выше, часть ниже (согласно важности веса, важность по выборке данных определяется). Вроде как качество должно становиться выше, но сильно зависит от того, “попали” ли ваши задачи в выборку.

Так что Q4 дает лучшее соотношение размер/качество, но возможно придется поискать кванты с менее агрессивной “оптимизацией”. Лично я от unsloth отказался - уж сильную деградацию на русском увидел на некоторых задачах. Остановился на Q4_K_L от bartowski.

ontop Jun 3 at 12:46

Я использую MoE, с Imatrix знаком, использую Apex варианты квантования с imatrix.
Как понял MoE лучше дружит с imatrix, а вот 27B плохо квантуется с imatrix.

Тоже читал что bartowski и mudler делают лучшие кванты, на hugging

SabMakc Jun 3 at 13:18

Apex как-то не зашел - на моем “тестовом” примере его ответ сильно отличается от того, что стабильно выдают другие кванты (демонстрирует другой подход к решению задачи). Т.е. или дообучение какое было (хотя не должно), или по другому выбираются эксперты.

Да, imatrix полезнее для MoE, хотя к плотным моделям тоже применима.

SabMakc Jun 3 at 08:24

Лично на мой взгляд, отключать рассуждения не нужно. Как минимум если общаешься с моделью на русском.

Модель рассуждает на английском, для чего переводит и запрос на английский и пересказывает его своими словами - сразу видно, на сколько она вообще поняла задачу. Слышал, размышления положительно влияют на понимание задач, особенно в части “чего не делать” (сам подтвердить не могу - не копался еще в этой теме).

Для простых задач это может и не существенно, но на сложных в плюс играет. А для qwen3.6 можно еще preserve_thinking установить - чтобы рассуждения от прошлых сообщений сохранялись в контексте.

Хотя в том же чате я отключаю рассуждения - скорость ответа критичней, модель обычно много по кругу ходит “обкатывая” ответ. Агент же более фоново работает. Да и системный промт, вероятно, решает. Еще не копал, в чем именно разница, но в pi agent размышления кажутся более “по делу” на той же самой модели.

Kobagugi Jun 3 at 16:16

Зависит от задачи. Если надо переписать функцию - рассуждения не нужны, если архитектуру спроектировать - пусть думает

SabMakc Jun 3 at 17:12

Да, думающий режим далеко не всегда нужен.

Но пока у меня впечатление, что в агентском режиме, Qwen3.6-36B-A3B лучше в думающем режиме работает, даже на достаточно простых задачах.

Kobagugi Jun 3 at 15:57

Для кодинга реально лучше отрубать рассуждения, иначе модель начинает генерить тонну текста вместо нужного куска кода. Но температуру я бы вообще в ноль уводил для жесткой детерминированности

NicholasM6 Jun 3 at 17:04

У меня Qwen3.6-35B-A3B Q5 выдает 85 токен/с на Tesla v100, но я пока только с контекстом 8к пробовал

devpew Jun 5 at 19:11

Qwen3.6-35B-A3B это MoE модель, она тупее но быстрее.

CTATuB4uK Jun 3 at 17:10

Не вы разогнали. Разогнали ggerganov, Aman Gupta (am17an) и сообщество.

diflux Jun 4 at 18:21

Когда наиграетесь, просто купите подписку на курсор за $200 и получите 1500 т/с, а может и больше.

devpew Jun 4 at 18:59

Курсор выдает до 250 токенов в секунду
Я тратил на подписки больше $400 в месяц. И в данный момент не вижу для своих проектов разницы между ними и локальной моделью.

diflux Jun 4 at 19:23

250 т/с это у компоузер 2.0 ?, сейчас 2,5 вышел, и еще 2,5 Fast, он намного быстрее
я игрался локально с qwen3,6-27b, и даже карту поменял на 3090Ti 24gb, но с контекстом 240 тыс скорость 2-3 т/с, чтобы не вылетало в память, нужно контекст 60 тыс ставить, тогда 10 т/с. Но после 250, а сейчас и все 1500+ т/с — эти игры быстро надоели.

Какой оркестратор используете, в какой среде?

devpew Jun 4 at 19:52

qwen3.6-27b q8 у меня локально выдает около 75 токенов в секунду, что вполне себе приемлимо, запускаю в llama.cpp

я не использую оркестратор, я просто использую агента (pi) и rag

mflash123 Jun 7 at 10:11

Посмотрел стоимость 5090...а их у автора 2х. Космос.

dartraiden Jun 19 at 06:29

Есть более бюджетные варианты (производительность, конечно, будет похуже)