Comments 55
Спасибо за статью и за некоторые метрики. Хочу задать вопрос. Есть ли большое отличие чисто по субъективным ощущениям (можно без метрик, интересно именно пользовательское описание), по сравнению со стандартной работой с "полноценным" Qwen через веб-интерфейс? И насколько оно большое?
Я не автор, но имею что сказать:)
Через веб интерфейс у вас работа в стиле копи-паст, а при работе в программе типа opencode и подобных, нейросеть сама пишет код в файлы, сама тестирует и исправляет, вам только руководить процессом и исправлять косяки, опять же через нейросеть, возможно другую:)
Когда нейросеть работает с кодом напрямую, это даёт результат в десятки раз быстрее, чем работать через веб чат. Но в таком режиме нужно озаботиться инструкциями для нейросети, бэкапами, спецификациями, скиллами, промтами, в общем всем тем, чем забит Хабр в последние месяцы.
Насёт разницы локальной модели с полноценной Qwen3.6 Plus, это небо и земля. Думаю, что даже бесплатные модели, которые идут в комплекте с Opencode, будут как минимум не хуже локально запущенной модели с зажатыми лимитами на окно памяти и во всяком случае удобнее для итеративного использования.
Роль локальной генерации - это относительно простые задачи.
Даже бесплатные это сильно. Так там м2.5 в бесплатных, который далеко не в категории "даже бесплатный". По мне так существенно сильнее дипсик 3.2
Но лимиты на бесплатной - слёзы. Немного попробовать. И в целом это логично))
Думал тоже поставить протестировать локальную модель, потом сравнил по тестам все они проигрывают бесплатной в Github Copilot GPT5 xhigh и Claude Haiku 4.5.
Наверное смысл такой модели только в одном, сохранить информацию от третьих лиц, так как уже были примеры, когда человек скормил ChatGPT корп. код, который потом стал общедоступным.
В целом поставить такую машину для предприятия где этого никогда не было, будет полезно, потому это все происходящее скорей большой плюс.
Для достижения хорошего качества и полноты ответа эта модель много рассуждает, поэтому ждать придется. По 5+ минут рассуждений даже на сравнительно простые вопросы на похожей конфигурации ПК.
Спасибо, будем пробовать
На Radeon RX 9060 XT 16Gb, 32Gb ОЗУ (DDR4), CPU 6-core с параметрами из статьи скорость 17.5 т/с на пустом контексте
Если Number of layers for MoE onto CPU поставить в 0, то скорость уже 27 т/с почему-то. Я так понимаю инференс DDR4 сильно тормозит
Скорость выше, так как модель может поместиться в видеопамять GPU 16 ГБ против 12 ГБ.
Странно у меня (на i7 12700 + 9060 XT 16 GB + 64 GB DDR4) выше 22 т\с не поднимается - как бы я не крутил Number of layers for MoE onto CPU.
В итоге очередной раз плюнул и вернулся к GPT-OSS-20B - 86 т\с
Причём в обоих случаях бэкенд Vulkan оказывается быстрее родного ROCm (17 и 77 т\с).
Модель Q3_XXS в 16 Gb может влезть целиком. Упихал в Intel Arc A770, но -fit поменял на 300, вместо дефолтного гигабайта.
Если оставить стандартные настройки, то llama.cpp по умолчанию сама вытесняет слои Moe слои на CPU отставляя запас 1Gb на видеокарте. Чем больше слоев на видеокарте - тем быстрее.
Кроме скорости генерации, еще важна скорость разбора входных токенов.
На Intel Arc A770 16gb через Vulcan (без bf16, без тензорных ядер)На AMD или тем более nVidia должно летать
qwen35moe 35B.A3B IQ3_XXS - 3.0625 bpw | 12.29 GiB | 34.66 B | pp512 | 170.71 ± 2.32
qwen35moe 35B.A3B IQ3_XXS - 3.0625 bpw | 12.29 GiB | 34.66 B | tg128 |41.48 ± 0.06
дубль
Ты tps показал на чистом контексте, когда заполнения контекста дойдет до 50-60 тысяч токенов скорость катастрофически упадет, будет 15-20 токенов максимум.
Прикольный лайфхак с ncmoe=40, раньше я его вообще чисто на cpu запускал, 5т\сек казалось чудом. А щас полетело ажник на 35т\сек (3060) , причем контекста навалил 200 000 в настройках, и ничего. Если контекста 64 000 сделать, vram занято всего 5,5 гб из 12, поэтому и решил поэкспериментировать. Сначала долго думает, потом "летает".
спасибо за статью, но подключить к claude code, вместо opencode гораздо интересней) достаточно передать парочку переменных
Что за переменные?
В конфиге, например ~/.bashrc экспортировать пару переменных:
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434И далее запустить `claude --model="qwen/qwen3.6-35b-a3b" .`
А в чём это "гораздо" проявляется?
Я думаю речь о сообразительности. Всё таки опусосоннеты посуровей раз в 20, чем даже 122b/397b локальные модельки. Я тоже среди прочих гонял Qwen 3.6 35b a10b 4k_m. Она работает конечно как ракета, там под 10–15 строк в секунду вылетает. Но она, во‑первых на thinking может запросто потратить 10–30 секунд, а то и минуту, что немного портит впечатление от скорости, во‑вторых, может зациклиться, если ее заставлять читать какие‑нибудь консольные выводы при работе ffmpeg или установки пакетов питона. В‑третьих с некоторыми простыми задачами она тупо иногда не справляется. У 27b dense в этом плане получше конечно, но она в ~3 раза медленнее.
Я понимаю что можно взять другой рантайм, можно температуру покрутить и TopK, и ещё что‑нибудь, но когда ты практически решаешь задачу на это не хочется тратить время.
Локальные ЛЛМ на сегодняшний день, ИМХО про рутину и про бизнес‑логику, про установку настройку пакетов. Средние и сложные технические и/или нетривиальные задачи лучше им не давать, если нервы дороги.
Самый простой путь — в LMStudio открыть окно скачивания моделей. Там как магазин приложений на смартфоне. Ищите штуки которые поместятся в комп, смотрите число лайков и скачиваний, описание. Нажимаете «Download» — качается в фоне, пока качается одна или несколько моделей можно использовать текущие.

Я не автор если что)
mmap это вообще пакость. Она нужна вроде как чтобы модель быстрее стала доступна для использования даже пока все веса еще не загрузились, на деле только хуже делает и замедляет всё. На качество она влиять не должна.
Попробуйте всё запихнуть в GPU

То есть мы все слои пихаем в VRAM («Передача на GPU»), KVCache тоже туда. Всё что можно.
Длину контекста можно поставить любую, лишь бы в VRAM влезло. Для комфортной работы лучше 65к или 128к, хотя выше 48к у подобных моделей может начать ухудшаться мышление, особенно на низкой квантизацией (4K_M передаёт привет).
Попробуйте уменьшить параметр «Number of layers for MoE onto CPU» (ncmoe). Например, поставьте 20 вместо 40 — тогда половина MoE-весов уйдёт на GPU, загрузив VRAM, а в RAM освободится место. У меня на 12GB VRAM комфортно работает значение 25.

LM Studio

У меня с указанными параметрами VRAM осталась занята и выходит в лучшем случае 16т/с на RTX 4070 Ti (12Gb). Подскажите пжл что я делаю не так?
Судя по скриншоту, у вас не выставлен параметр “Number of layers for MoE onto CPU” (ncmoe) — из-за этого все MoE-веса сидят на GPU, VRAM забита под завязку и модель упирается в пропускную способность видеопамяти.
Попробуйте поставить ncmoe в диапазоне 25–40
Автору спасибо за статью, давно искал что-то похожее. Не знал что есть ideшки которые могут с локальными моделями работать. В общем попробовал настроить как у вас, но что-то не пошло. Lm studio стоит, модель загружена и работает через нее же. Сервер запущен на http://127.0.0.1:1234, есть opencode desktop и vs code расширение, но ни там ни там не смог приконектиться. Ошибки такие: Unexpected endpoint or method. (POST /chat/completions). Returning 200 anyway. Причем запросы идут на сервер.
Джисонка как у вас. Джисонку положил в opencode.json файл в новую папку. Эту же папку открываю через vs code.
{
"$schema": "https://opencode.ai/config.json",
"provider": {
"lmstudio": {
"npm": "@ai-sdk/openai-compatible",
"name": "LM Studio (local)",
"options": {
"baseURL": "http://127.0.0.1:1234/v1"
},
"models": {
"qwen/qwen3.6-35b-a3b": {
"name": "Qwen3.6 35B a3b (local)"
}
}
}
}
}
Спасибо за подсказку!
У меня lm studio через llmster на домашнем сервере (Xeon 2690v4, 64 gb RAM, 5060 ti 16 gb). Попробовал поиграться ключами аналогично вам, не взлетело.
Однако как второй вариант у меня стоит сам llama.cpp без оберток. Включил moe на cpu и квантование кэша. В итоге с контекстом 260000 получил около 36 токенов/с
Строка на запуск (вдруг кому-то надо будет, пока на отладке "гажу" в /root):
/root/llama.cpp/build/bin/llama-server -m “/root/.lmstudio/models/lmstudio-community/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-Q4_K_M.gguf” --host 0.0.0.0 --port 1234 -c 240000 -ngl 99 -t 16 --cpu-moe --cache-type-k q8_0 --cache-type-v q8_0 -b 1024
А как сервис llama.cpp отконфигурирована так:
[Unit] Description=llama-server for Qwen3.6-35B-A3B-Q4_K_M.gguf After=network.target
[Service] Type=simple User=root ExecStart=/root/llama.cpp/build/bin/llama-server -m “/root/.lmstudio/models/lmstudio-community/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-Q4_K_M.gguf” --host 0.0.0.0 --port 1234 -c 240000 -ngl 99 -t 16 --cpu-moe --cache-type-k q8_0 --cache-type-v q8_0 -b 1024 Restart=on-failure RestartSec=10
[Install] WantedBy=multi-user.target
Вполне себе крутой результат!
Cmp50hx Майнинг карты VLLM Qwen3.6 35B MOE, с перепайкой памяти в 20G, 78 токенов в секунду.

Сейчас реально круче: ушел на форк ik_llama.cpp, вместо cpu-moe использовал n-cpu-moe - раскидал сколько смог слоев в видеокарту. n-cpu-moe на обычной llama.cpp дал 50 т/с, на ik_llama.cpp получил 60 т/с и заметно уменьшившееся время первого токена.
Правда вчера добавил вторую видеокарту и от cpu-moe отказался. Получил 75-80 т/с и почти мгновенный первый токен (на opencode разница в анализе крупного C# проекта аж в 3 (!!!ТРИ) раза)
вместо cpu-moe использовал n-cpu-moe - раскидал сколько смог слоев в видеокарту. n-cpu-moe на обычной llama.cpp дал 50 т/с, на ik_llama.cpp получил 60 т/с
Для qwen3.6 на днях добавили поддержку MTP, можно получить еще больше скорости без потери качества. Для Qwen3.6-35B-A3B ускорение не такое большое, как для Qwen3.6 27B, но оно тоже есть.

Вот тут подробнее: Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP
По факту у меня сейчас форк ik_llama, который не умеет в MTP, крутит Qwen3.6-35B-A3B заметно быстрее, чем ветка llama с поддержкой MTP. В ближайшие дни буду разбираться, но у меня пока эффект от MTP скорее обратный. Даже на плотной модели 27b. Но тут возможно сказывается то, что кручу на двух видеокартах, а не на одной и, возможно, с MTP этим как-то конфликтует - это же пока в экспериментальной ветке.
Огромное спасибо за статью! Всё летает по вашим параметрам.
Также благодарю за подсказу по настройкам. Сопоставимый уровень железок, только cpu другой, i7 12700KF, LM STUDIO не хочет больше 4 ядер отдавать.

Это нормальная скорость или можно и лучше? Сейчас схожу в opecode на использовании инструментов ее проверю.
При этом почти весь РАМ забит (28 из 32 Гб), а видео память только 6 из 12 Гб. Может есть куда двинуть ползунки еще? Контекст поставил 65535, кинул длинную агентную задачу (найти файл, в нем взять список из 10 товарных знаков, по каждому сходить в интернет и проверить срок действия и последние изменения), выполняет все, но сильно медленно конечно. Слабое место - прцессинг промпта (ну или вывода инструментов, в моем случае снапшота chrome dev tools). Агентную задачу выполнил на отлично, выполнял 33 минуты с половиной. Но круто, пока это первая и последняя модель, локально справившаяся с агентной задачей.
Ну вот и небольшая революция. Качественная модель и на слабом железе с огромным контекстом. Кстати, так можно щапускать модели вообще из другой весовой категории -глм 5 например.
Никакой революции, к сожалению. Для задач кодинга это слабая модель. MoE-архитектура идеально подходит для локальных помощников с широким спектром простых задач вроде простых переводов, простых случаев написания скриптов, но вот для больших и сложных проектов, связанных с кодингом, они подходят плохо.
Потому что вы и сами можете представить, насколько сильно страдает качество генерации, учитывая, что там реально 3 миллиарда активных параметров.
Для реальных задач в области разработки нужно использовать либо очень большие MoE, либо dense-модели вроде недавно вышедшей qwen 3.6 27b (тоже маленькая, но она точно гораздо лучше в программировании).
Абсолютно верно. И вообще для разработки никакие 20-30В не годятся. Статья на хайпе просто о том что запустил и рад. 40 токенов в секунду. Тут 300 то не хватает. А в Openclaw и подавно такие скорости малопригодны. Ну как выше уже написали, только как ассистенты, болталки в чатах и поиск инфы в инете. Не серьезно.
Удалось получить: ~507.9 токенов/сек
AMD Ryzen 9 5950X OEM
NVIDIA GeForce RTX 4080 (16gb VRAM)
32Gb ram
NVIDIA GeForce RTX 4080
Версия драйвера: 32.0.15.9579
Дата разработки: 04.03.2026
Версия DirectX: 12 (FL 12.2)
Физическое расположение: PCI-шина 5, устройство 0, функция 0
Использование 93%
Выделенная память графического процессора 15,1/16,0 ГБ
Общая память графического процессора 0,4/16,0 ГБ
Оперативная память графического процессора 15,5/32,0 ГБ

Есть у кого опыт по аналогичному запуску дообученных вариантов этой модельки?
Здравствуйте, кто-то еще столкнулся с doom loop у qwen3.6-35b-a3b, если да, то как решали проблему с tool calls doom loop на "больших" контекстных окнах ? они появляются даже при контекстном окне 131072...


Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака