Pull to refresh

Comments 44

Самое главное забыл написать. Какой квант и на каком оборудовании запускал.

Запускал вообще вот так

pm2 start bash --name llama-server -- -c "/home/dm/llamamtp/llama.cpp/build/bin/llama-server -m /home/dm/models/qwen3-next/Qwen3.6-27B-UD-Q8_K_XL.gguf --host 0.0.0.0 --port 8080 -ngl 999 -ts 0,0 --ctx-size 262144 --batch-size 512 --ubatch-size 256 --flash-attn on --parallel 1 --temp 0.6 --top-p 0.95 --reasoning-budget 0 --spec-type draft-mtp --spec-draft-n-max 2"

Квантование Q8_K_XL

Запускалось на двух 5090

Долго запускалась ?

С sm tensor у меня на 2х 3090 80ts выдает, q8.

максимум который я видел лично на 2х 3090 - 120 ts, с включенным ngram, q8. но у меня не заработало, может из за винды, фиг знает.

у меня похожие параметры запуска, но spec-draft-n-max = 4 и ctx-size = 129к (5090+5070ti) - на старте >90ts спустя 50% заполненного контекста 80ts, ризонинг включен, запускаюсь под виндой.

С таким железом странно было бы получить плохие результаты. Большинству такие эксперименты тупо не по карману

В чем проблема купить RTX3090 или переделанную RTX3080 20Gb за 46тыр от китайцаев

Можно ссылку на модель? Не получается найти. 🙏

под эту модель 'Qwen3.6-27B' сколько нужно минимально видеопамяти для более-менее комфортной работы?

Я бы не смотрел на квантования ниже Qwen3.6-27B-Q6_K.gguf она весит 23гб, так же надо еще место для kv cache и для контекста. Так что если ужаться то можно например взять пару карт по 16гб, а потом париться с оптимизациями

Q4 отлично работает на 3090. Это и есть рабочий минимум на сегодня

А какая скорость при этом выходит? У нас где-то 50-60, в зависимости от погоды.

Включайте mtp, он чутка добавит. На этих скоростях каждые 5т/с дороги.

Лениво. В реальной работе все равно использую только топовые облачные.

Q6 27B на одной rtx 4060 ti (16Gb) работает норм для меня. Попробую указанные оптимизации. Может скорость и вправду возрастёт.

а как она (Q6 27B) влезает в 16гб ? или это магия llama.cpp

Никак конечно. Ну или просто часть ложится в RAM и в итоге 2 ток/с.

А чего не Qwen3.6-36B-A3B? Модель не сильно глупее, но сильно быстрее. Да и Q4 на 50% быстрее Q6 будет.

Ну, возьмём настройки, почти как в статье.

./llama-b9305/llama-server \
    --model /srv/llm/gguf/Qwen3.6-27B-MTP-Q4_K_M.gguf \
    -ngl 99 -c 262144 -fa on \
    --spec-type draft-mtp --spec-draft-n-max 2 \
    --parallel 2 \
    --reasoning-budget 0 \
    --batch-size 2048 --ubatch-size 512 \
    --presence_penalty 0.0 \
    --top-p 0.95 --top_k 20 \
    --temp 0.6 \
    --host 192.168.1.5 --port 8080
Получим следующее потребление:
Где-то 35.5Gb VRAM
Где-то 35.5Gb VRAM

Докинем туда:

--cache-type-k q8_0 --cache-type-v q8_0
Во время обработки запроса будет влезать в 32Gb
Где-то около 27.5Gb
Где-то около 27.5Gb

Т.е. комфортный выбор - это что-то вроде:

  • RTX 5090 32Gb

  • RTX PRO 4500 Blackwell 32Gb

  • Radeon AI PRO R9700 32Gb

Ну и т.д. Если режем контекст в два раза, то там уже и в 24 ужаться реально.

Понятное дело, что всё вышеуказанное потребление очень условно (тем более, что llama.cpp @ Vulkan @ Ubuntu 26.04 @ Ryzen 395 aka Radeon 8060S 32 RAM / 96 VRAM), но примерно позволяет понять потребление модели. Правда, на Ryzen 395 там 22-25 t/s генерации всего.

Хватает этих скоростей для личного использования, кодит себе потихоньку (это я про райзен)

Можно еще попробовать оффлоад части слоев на процессор. Скорость просядет, зато влезет даже в обычную 3090 без танцев с бубном

Интересно как оптимизировать флоу на маке, где вроде как памяти посвободнее.

Для мака прежде всего надо смотреть на формат MLX, это специально под их процессоры сделанный формат. А остальное вроде то же самое.

https://omlx.ai проект открыл мне глаза на скорость, тестировал на MoE Qwen-3.6-35-A3B , на M3Max в итоге скорость как на 5060Ti 16gb с offload нескольких слоёв, была недавно тоже статья на хабре про точную конфигурацию

Посмотри в сторону oMLX. Обработка кэша - очень долгая операция. И тут её оптимизировали.

Используйте CUDA 13.3, а не 13.2 или 12.

Если интересно то можете подписывать в телеге на наш маленький чатик в котором мы обсуждаем такие темы - homelabru

Полписался бы, но у меня RDNA4.

Тоже использую llama, но 27b выдает у меня не более 40t/s.

На 35b выдает 100-110t/s.

35b это вроде MoE, так что оно и понятно что 100+ t/s

Интересует насколько Moe хуже?

Еще интересно почему ниже чем 6 bit лучше не запускать, насколько качество падает?

MoE может быть и лучше - зависит, в первую очередь, от задач.

Q6 чуть хуже Q8 на доли процента, Q4 хуже на несколько процентов.

Но большое влиянием имеет то, как квантовали - сейчас популярен imatrix - часть слоев квантуется выше, часть ниже (согласно важности веса, важность по выборке данных определяется). Вроде как качество должно становиться выше, но сильно зависит от того, “попали” ли ваши задачи в выборку.

Так что Q4 дает лучшее соотношение размер/качество, но возможно придется поискать кванты с менее агрессивной “оптимизацией”. Лично я от unsloth отказался - уж сильную деградацию на русском увидел на некоторых задачах. Остановился на Q4_K_L от bartowski.

Я использую MoE, с Imatrix знаком, использую Apex варианты квантования с imatrix.
Как понял MoE лучше дружит с imatrix, а вот 27B плохо квантуется с imatrix.

Тоже читал что bartowski и mudler делают лучшие кванты, на hugging

Apex как-то не зашел - на моем “тестовом” примере его ответ сильно отличается от того, что стабильно выдают другие кванты (демонстрирует другой подход к решению задачи). Т.е. или дообучение какое было (хотя не должно), или по другому выбираются эксперты.

Да, imatrix полезнее для MoE, хотя к плотным моделям тоже применима.

Лично на мой взгляд, отключать рассуждения не нужно. Как минимум если общаешься с моделью на русском.

Модель рассуждает на английском, для чего переводит и запрос на английский и пересказывает его своими словами - сразу видно, на сколько она вообще поняла задачу. Слышал, размышления положительно влияют на понимание задач, особенно в части “чего не делать” (сам подтвердить не могу - не копался еще в этой теме).

Для простых задач это может и не существенно, но на сложных в плюс играет. А для qwen3.6 можно еще preserve_thinking установить - чтобы рассуждения от прошлых сообщений сохранялись в контексте.

Хотя в том же чате я отключаю рассуждения - скорость ответа критичней, модель обычно много по кругу ходит “обкатывая” ответ. Агент же более фоново работает. Да и системный промт, вероятно, решает. Еще не копал, в чем именно разница, но в pi agent размышления кажутся более “по делу” на той же самой модели.

Зависит от задачи. Если надо переписать функцию - рассуждения не нужны, если архитектуру спроектировать - пусть думает

Да, думающий режим далеко не всегда нужен.

Но пока у меня впечатление, что в агентском режиме, Qwen3.6-36B-A3B лучше в думающем режиме работает, даже на достаточно простых задачах.

Для кодинга реально лучше отрубать рассуждения, иначе модель начинает генерить тонну текста вместо нужного куска кода. Но температуру я бы вообще в ноль уводил для жесткой детерминированности

У меня Qwen3.6-35B-A3B Q5 выдает 85 токен/с на Tesla v100, но я пока только с контекстом 8к пробовал

Qwen3.6-35B-A3B это MoE модель, она тупее но быстрее.

Не вы разогнали. Разогнали ggerganov, Aman Gupta (am17an) и сообщество.

Когда наиграетесь, просто купите подписку на курсор за $200 и получите 1500 т/с, а может и больше.

Курсор выдает до 250 токенов в секунду
Я тратил на подписки больше $400 в месяц. И в данный момент не вижу для своих проектов разницы между ними и локальной моделью.

250 т/с это у компоузер 2.0 ?, сейчас 2,5 вышел, и еще 2,5 Fast, он намного быстрее
я игрался локально с qwen3,6-27b, и даже карту поменял на 3090Ti 24gb, но с контекстом 240 тыс скорость 2-3 т/с, чтобы не вылетало в память, нужно контекст 60 тыс ставить, тогда 10 т/с. Но после 250, а сейчас и все 1500+ т/с — эти игры быстро надоели.

Какой оркестратор используете, в какой среде?

qwen3.6-27b q8 у меня локально выдает около 75 токенов в секунду, что вполне себе приемлимо, запускаю в llama.cpp

я не использую оркестратор, я просто использую агента (pi) и rag

Sign up to leave a comment.

Articles