Comments 44
Самое главное забыл написать. Какой квант и на каком оборудовании запускал.
Запускал вообще вот такpm2 start bash --name llama-server -- -c "/home/dm/llamamtp/llama.cpp/build/bin/llama-server -m /home/dm/models/qwen3-next/Qwen3.6-27B-UD-Q8_K_XL.gguf --host 0.0.0.0 --port 8080 -ngl 999 -ts 0,0 --ctx-size 262144 --batch-size 512 --ubatch-size 256 --flash-attn on --parallel 1 --temp 0.6 --top-p 0.95 --reasoning-budget 0 --spec-type draft-mtp --spec-draft-n-max 2"
Квантование Q8_K_XL
Запускалось на двух 5090
Долго запускалась ?
С sm tensor у меня на 2х 3090 80ts выдает, q8.
максимум который я видел лично на 2х 3090 - 120 ts, с включенным ngram, q8. но у меня не заработало, может из за винды, фиг знает.
у меня похожие параметры запуска, но spec-draft-n-max = 4 и ctx-size = 129к (5090+5070ti) - на старте >90ts спустя 50% заполненного контекста 80ts, ризонинг включен, запускаюсь под виндой.
С таким железом странно было бы получить плохие результаты. Большинству такие эксперименты тупо не по карману
Можно ссылку на модель? Не получается найти. 🙏
под эту модель 'Qwen3.6-27B' сколько нужно минимально видеопамяти для более-менее комфортной работы?
Q4 отлично работает на 3090. Это и есть рабочий минимум на сегодня
Q6 27B на одной rtx 4060 ti (16Gb) работает норм для меня. Попробую указанные оптимизации. Может скорость и вправду возрастёт.
Ну, возьмём настройки, почти как в статье.
./llama-b9305/llama-server \
--model /srv/llm/gguf/Qwen3.6-27B-MTP-Q4_K_M.gguf \
-ngl 99 -c 262144 -fa on \
--spec-type draft-mtp --spec-draft-n-max 2 \
--parallel 2 \
--reasoning-budget 0 \
--batch-size 2048 --ubatch-size 512 \
--presence_penalty 0.0 \
--top-p 0.95 --top_k 20 \
--temp 0.6 \
--host 192.168.1.5 --port 8080Получим следующее потребление:

Докинем туда:
--cache-type-k q8_0 --cache-type-v q8_0Во время обработки запроса будет влезать в 32Gb

Т.е. комфортный выбор - это что-то вроде:
RTX 5090 32Gb
RTX PRO 4500 Blackwell 32Gb
Radeon AI PRO R9700 32Gb
Ну и т.д. Если режем контекст в два раза, то там уже и в 24 ужаться реально.
Понятное дело, что всё вышеуказанное потребление очень условно (тем более, что llama.cpp @ Vulkan @ Ubuntu 26.04 @ Ryzen 395 aka Radeon 8060S 32 RAM / 96 VRAM), но примерно позволяет понять потребление модели. Правда, на Ryzen 395 там 22-25 t/s генерации всего.
Интересно как оптимизировать флоу на маке, где вроде как памяти посвободнее.
Для мака прежде всего надо смотреть на формат MLX, это специально под их процессоры сделанный формат. А остальное вроде то же самое.
https://omlx.ai проект открыл мне глаза на скорость, тестировал на MoE Qwen-3.6-35-A3B , на M3Max в итоге скорость как на 5060Ti 16gb с offload нескольких слоёв, была недавно тоже статья на хабре про точную конфигурацию
Посмотри в сторону oMLX. Обработка кэша - очень долгая операция. И тут её оптимизировали.
Используйте CUDA 13.3, а не 13.2 или 12.
Если интересно то можете подписывать в телеге на наш маленький чатик в котором мы обсуждаем такие темы - homelabru
Полписался бы, но у меня RDNA4.
Тоже использую llama, но 27b выдает у меня не более 40t/s.
На 35b выдает 100-110t/s.
35b это вроде MoE, так что оно и понятно что 100+ t/s
Интересует насколько Moe хуже?
Еще интересно почему ниже чем 6 bit лучше не запускать, насколько качество падает?
MoE может быть и лучше - зависит, в первую очередь, от задач.
Q6 чуть хуже Q8 на доли процента, Q4 хуже на несколько процентов.
Но большое влиянием имеет то, как квантовали - сейчас популярен imatrix - часть слоев квантуется выше, часть ниже (согласно важности веса, важность по выборке данных определяется). Вроде как качество должно становиться выше, но сильно зависит от того, “попали” ли ваши задачи в выборку.
Так что Q4 дает лучшее соотношение размер/качество, но возможно придется поискать кванты с менее агрессивной “оптимизацией”. Лично я от unsloth отказался - уж сильную деградацию на русском увидел на некоторых задачах. Остановился на Q4_K_L от bartowski.
Я использую MoE, с Imatrix знаком, использую Apex варианты квантования с imatrix.
Как понял MoE лучше дружит с imatrix, а вот 27B плохо квантуется с imatrix.
Тоже читал что bartowski и mudler делают лучшие кванты, на hugging
Apex как-то не зашел - на моем “тестовом” примере его ответ сильно отличается от того, что стабильно выдают другие кванты (демонстрирует другой подход к решению задачи). Т.е. или дообучение какое было (хотя не должно), или по другому выбираются эксперты.
Да, imatrix полезнее для MoE, хотя к плотным моделям тоже применима.
Лично на мой взгляд, отключать рассуждения не нужно. Как минимум если общаешься с моделью на русском.
Модель рассуждает на английском, для чего переводит и запрос на английский и пересказывает его своими словами - сразу видно, на сколько она вообще поняла задачу. Слышал, размышления положительно влияют на понимание задач, особенно в части “чего не делать” (сам подтвердить не могу - не копался еще в этой теме).
Для простых задач это может и не существенно, но на сложных в плюс играет. А для qwen3.6 можно еще preserve_thinking установить - чтобы рассуждения от прошлых сообщений сохранялись в контексте.
Хотя в том же чате я отключаю рассуждения - скорость ответа критичней, модель обычно много по кругу ходит “обкатывая” ответ. Агент же более фоново работает. Да и системный промт, вероятно, решает. Еще не копал, в чем именно разница, но в pi agent размышления кажутся более “по делу” на той же самой модели.
Для кодинга реально лучше отрубать рассуждения, иначе модель начинает генерить тонну текста вместо нужного куска кода. Но температуру я бы вообще в ноль уводил для жесткой детерминированности
У меня Qwen3.6-35B-A3B Q5 выдает 85 токен/с на Tesla v100, но я пока только с контекстом 8к пробовал
Не вы разогнали. Разогнали ggerganov, Aman Gupta (am17an) и сообщество.
Когда наиграетесь, просто купите подписку на курсор за $200 и получите 1500 т/с, а может и больше.
Курсор выдает до 250 токенов в секунду
Я тратил на подписки больше $400 в месяц. И в данный момент не вижу для своих проектов разницы между ними и локальной моделью.
250 т/с это у компоузер 2.0 ?, сейчас 2,5 вышел, и еще 2,5 Fast, он намного быстрее
я игрался локально с qwen3,6-27b, и даже карту поменял на 3090Ti 24gb, но с контекстом 240 тыс скорость 2-3 т/с, чтобы не вылетало в память, нужно контекст 60 тыс ставить, тогда 10 т/с. Но после 250, а сейчас и все 1500+ т/с — эти игры быстро надоели.
Какой оркестратор используете, в какой среде?
Как я разогнал Qwen3.6-27B до 73 токен/с в llama.cpp: параметры, которые реально работают