rAnto Apr 22 at 09:30

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

Medium

4 min

45K

Artificial IntelligenceMachine learning * Open source *

Tutorial

From sandbox

+38

Comments 59

Gedeonych Apr 22 at 09:40

Спасибо за статью и за некоторые метрики. Хочу задать вопрос. Есть ли большое отличие чисто по субъективным ощущениям (можно без метрик, интересно именно пользовательское описание), по сравнению со стандартной работой с "полноценным" Qwen через веб-интерфейс? И насколько оно большое?

Smartor Apr 22 at 10:02

Я не автор, но имею что сказать:)

Через веб интерфейс у вас работа в стиле копи-паст, а при работе в программе типа opencode и подобных, нейросеть сама пишет код в файлы, сама тестирует и исправляет, вам только руководить процессом и исправлять косяки, опять же через нейросеть, возможно другую:)

Когда нейросеть работает с кодом напрямую, это даёт результат в десятки раз быстрее, чем работать через веб чат. Но в таком режиме нужно озаботиться инструкциями для нейросети, бэкапами, спецификациями, скиллами, промтами, в общем всем тем, чем забит Хабр в последние месяцы.

Насёт разницы локальной модели с полноценной Qwen3.6 Plus, это небо и земля. Думаю, что даже бесплатные модели, которые идут в комплекте с Opencode, будут как минимум не хуже локально запущенной модели с зажатыми лимитами на окно памяти и во всяком случае удобнее для итеративного использования.

Роль локальной генерации - это относительно простые задачи.

ITDiver77 Apr 23 at 10:34

Даже бесплатные это сильно. Так там м2.5 в бесплатных, который далеко не в категории "даже бесплатный". По мне так существенно сильнее дипсик 3.2

Но лимиты на бесплатной - слёзы. Немного попробовать. И в целом это логично))

ontop Apr 23 at 20:43

Думал тоже поставить протестировать локальную модель, потом сравнил по тестам все они проигрывают бесплатной в Github Copilot GPT5 xhigh и Claude Haiku 4.5.

Наверное смысл такой модели только в одном, сохранить информацию от третьих лиц, так как уже были примеры, когда человек скормил ChatGPT корп. код, который потом стал общедоступным.

В целом поставить такую машину для предприятия где этого никогда не было, будет полезно, потому это все происходящее скорей большой плюс.

SanyaZ7 Apr 22 at 10:07

Для достижения хорошего качества и полноты ответа эта модель много рассуждает, поэтому ждать придется. По 5+ минут рассуждений даже на сравнительно простые вопросы на похожей конфигурации ПК.

DirOr Apr 22 at 09:54

Спасибо, будем пробовать

CiberAlex Apr 22 at 10:40

На Radeon RX 9060 XT 16Gb, 32Gb ОЗУ (DDR4), CPU 6-core с параметрами из статьи скорость 17.5 т/с на пустом контексте

Если Number of layers for MoE onto CPU поставить в 0, то скорость уже 27 т/с почему-то. Я так понимаю инференс DDR4 сильно тормозит

foxb Apr 22 at 11:49

Скорость выше, так как модель может поместиться в видеопамять GPU 16 ГБ против 12 ГБ.

iMic Apr 23 at 10:43

Странно у меня (на i7 12700 + 9060 XT 16 GB + 64 GB DDR4) выше 22 т\с не поднимается - как бы я не крутил Number of layers for MoE onto CPU.

В итоге очередной раз плюнул и вернулся к GPT-OSS-20B - 86 т\с

Причём в обоих случаях бэкенд Vulkan оказывается быстрее родного ROCm (17 и 77 т\с).

CiberAlex Apr 23 at 11:20

Забавно, у меня наоборот ROCm чуть быстрее, чем Vulkan, но там разница буквально пара-тройка т/с

iMic Apr 23 at 11:23

17 - это для Qwen

77 - GPT

Т.е. разница в пользу Vulkan тоже небольшая, а вот в пользу GPT просто огромная.

tigralen Apr 27 at 13:54

Модель Q3_XXS в 16 Gb может влезть целиком. Упихал в Intel Arc A770, но -fit поменял на 300, вместо дефолтного гигабайта.

Если оставить стандартные настройки, то llama.cpp по умолчанию сама вытесняет слои Moe слои на CPU отставляя запас 1Gb на видеокарте. Чем больше слоев на видеокарте - тем быстрее.

Кроме скорости генерации, еще важна скорость разбора входных токенов.

tigralen Apr 27 at 13:59

На Intel Arc A770 16gb через Vulcan (без bf16, без тензорных ядер)
На AMD или тем более nVidia должно летать

qwen35moe 35B.A3B IQ3_XXS - 3.0625 bpw | 12.29 GiB | 34.66 B | pp512 | 170.71 ± 2.32

qwen35moe 35B.A3B IQ3_XXS - 3.0625 bpw | 12.29 GiB | 34.66 B | tg128 |41.48 ± 0.06

CiberAlex Apr 29 at 07:07

Попробовал. На ROCm выдает 62 т/с на моей машине, но у модели уже начинаются трудности с русским языком на таком квантовании

pankixoi2113 May 7 at 20:15

А через что работаете? ollama или LM? Не поделитесь настройкой? Через LM 9 токенов. 4Q удалось 28 т/с выжать.

CiberAlex Apr 29 at 08:05

~~дубль~~

DooKoo2 Apr 22 at 10:49

Ты tps показал на чистом контексте, когда заполнения контекста дойдет до 50-60 тысяч токенов скорость катастрофически упадет, будет 15-20 токенов максимум.

Moog_Prodigy Apr 22 at 14:06

Прикольный лайфхак с ncmoe=40, раньше я его вообще чисто на cpu запускал, 5т\сек казалось чудом. А щас полетело ажник на 35т\сек (3060) , причем контекста навалил 200 000 в настройках, и ничего. Если контекста 64 000 сделать, vram занято всего 5,5 гб из 12, поэтому и решил поэкспериментировать. Сначала долго думает, потом "летает".

DamirMur Apr 29 at 18:08

200 000,64 000 это неправильные цифры, правильные должны быть кратны степени двойки

freelook27 Apr 22 at 17:12

спасибо за статью, но подключить к claude code, вместо opencode гораздо интересней) достаточно передать парочку переменных

radhab20 Apr 23 at 02:09

Что за переменные?

DirectX Apr 23 at 19:45

В конфиге, например ~/.bashrc экспортировать пару переменных:

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434

И далее запустить `claude --model="qwen/qwen3.6-35b-a3b" .`

Nine_tailed Apr 30 at 10:06

а у вас не тормозит в claude, в чате lmsutio модель отвечает быстро, в claude надо ждать по несколько минут.

ITDiver77 Apr 23 at 10:36

А в чём это "гораздо" проявляется?

VBDUnit Apr 23 at 12:36

Я думаю речь о сообразительности. Всё таки опусосоннеты посуровей раз в 20, чем даже 122b/397b локальные модельки. Я тоже среди прочих гонял Qwen 3.6 35b a10b 4k_m. Она работает конечно как ракета, там под 10–15 строк в секунду вылетает. Но она, во‑первых на thinking может запросто потратить 10–30 секунд, а то и минуту, что немного портит впечатление от скорости, во‑вторых, может зациклиться, если ее заставлять читать какие‑нибудь консольные выводы при работе ffmpeg или установки пакетов питона. В‑третьих с некоторыми простыми задачами она тупо иногда не справляется. У 27b dense в этом плане получше конечно, но она в ~3 раза медленнее.

Я понимаю что можно взять другой рантайм, можно температуру покрутить и TopK, и ещё что‑нибудь, но когда ты практически решаешь задачу на это не хочется тратить время.

Локальные ЛЛМ на сегодняшний день, ИМХО про рутину и про бизнес‑логику, про установку настройку пакетов. Средние и сложные технические и/или нетривиальные задачи лучше им не давать, если нервы дороги.

UFO landed and left these words here

VBDUnit Apr 23 at 12:21

Самый простой путь — в LMStudio открыть окно скачивания моделей. Там как магазин приложений на смартфоне. Ищите штуки которые поместятся в комп, смотрите число лайков и скачиваний, описание. Нажимаете «Download» — качается в фоне, пока качается одна или несколько моделей можно использовать текущие.

UFO landed and left these words here

VBDUnit Apr 23 at 12:47

Я не автор если что)

mmap это вообще пакость. Она нужна вроде как чтобы модель быстрее стала доступна для использования даже пока все веса еще не загрузились, на деле только хуже делает и замедляет всё. На качество она влиять не должна.

Попробуйте всё запихнуть в GPU

То есть мы все слои пихаем в VRAM («Передача на GPU»), KVCache тоже туда. Всё что можно.

Длину контекста можно поставить любую, лишь бы в VRAM влезло. Для комфортной работы лучше 65к или 128к, хотя выше 48к у подобных моделей может начать ухудшаться мышление, особенно на низкой квантизацией (4K_M передаёт привет).

UFO landed and left these words here

rAnto Apr 23 at 17:37

Попробуйте уменьшить параметр «Number of layers for MoE onto CPU» (ncmoe). Например, поставьте 20 вместо 40 — тогда половина MoE-весов уйдёт на GPU, загрузив VRAM, а в RAM освободится место. У меня на 12GB VRAM комфортно работает значение 25.

UFO landed and left these words here

Setiboy Apr 25 at 19:26

Уже неделю гоняю в openclaw и наверно она первая из локальных, которая очень даже ничего работает в боте. Бывает подталкивает, но в целом вполне себе можно жить

lavandil_by Apr 23 at 17:23

LM Studio

У меня с указанными параметрами VRAM осталась занята и выходит в лучшем случае 16т/с на RTX 4070 Ti (12Gb). Подскажите пжл что я делаю не так?

rAnto Apr 23 at 17:44

Судя по скриншоту, у вас не выставлен параметр “Number of layers for MoE onto CPU” (ncmoe) — из-за этого все MoE-веса сидят на GPU, VRAM забита под завязку и модель упирается в пропускную способность видеопамяти.

Попробуйте поставить ncmoe в диапазоне 25–40

lavandil_by Apr 23 at 18:03

Благодарю, не увидел этот параметр внизу, получилось 54т/с на том же запросе.

Lada-Priora Apr 24 at 08:11

Автору спасибо за статью, давно искал что-то похожее. Не знал что есть ideшки которые могут с локальными моделями работать. В общем попробовал настроить как у вас, но что-то не пошло. Lm studio стоит, модель загружена и работает через нее же. Сервер запущен на http://127.0.0.1:1234, есть opencode desktop и vs code расширение, но ни там ни там не смог приконектиться. Ошибки такие: Unexpected endpoint or method. (POST /chat/completions). Returning 200 anyway. Причем запросы идут на сервер.
Джисонка как у вас. Джисонку положил в opencode.json файл в новую папку. Эту же папку открываю через vs code.

{

"$schema": "https://opencode.ai/config.json",

"provider": {

"lmstudio": {

"npm": "@ai-sdk/openai-compatible",

"name": "LM Studio (local)",

"options": {

"baseURL": "http://127.0.0.1:1234/v1"

"models": {

"qwen/qwen3.6-35b-a3b": {

"name": "Qwen3.6 35B a3b (local)"

}

slabnoff Apr 24 at 12:00

Спасибо за подсказку!
У меня lm studio через llmster на домашнем сервере (Xeon 2690v4, 64 gb RAM, 5060 ti 16 gb). Попробовал поиграться ключами аналогично вам, не взлетело.
Однако как второй вариант у меня стоит сам llama.cpp без оберток. Включил moe на cpu и квантование кэша. В итоге с контекстом 260000 получил около 36 токенов/с

Строка на запуск (вдруг кому-то надо будет, пока на отладке "гажу" в /root):
/root/llama.cpp/build/bin/llama-server -m “/root/.lmstudio/models/lmstudio-community/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-Q4_K_M.gguf” --host 0.0.0.0 --port 1234 -c 240000 -ngl 99 -t 16 --cpu-moe --cache-type-k q8_0 --cache-type-v q8_0 -b 1024

А как сервис llama.cpp отконфигурирована так:

[Unit] Description=llama-server for Qwen3.6-35B-A3B-Q4_K_M.gguf After=network.target

[Service] Type=simple User=root ExecStart=/root/llama.cpp/build/bin/llama-server -m “/root/.lmstudio/models/lmstudio-community/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-Q4_K_M.gguf” --host 0.0.0.0 --port 1234 -c 240000 -ngl 99 -t 16 --cpu-moe --cache-type-k q8_0 --cache-type-v q8_0 -b 1024 Restart=on-failure RestartSec=10

[Install] WantedBy=multi-user.target

VGusev2007 Apr 25 at 08:59

Вполне себе крутой результат!

Rjohn55 May 4 at 14:10

Cmp50hx Майнинг карты VLLM Qwen3.6 35B MOE, с перепайкой памяти в 20G, 78 токенов в секунду.

radhab20 May 6 at 21:59

Сколько карт

radhab20 May 20 at 12:24

Сколько карт? И какие характеристики системы, если не секрет?

slabnoff May 21 at 08:30

Сейчас реально круче: ушел на форк ik_llama.cpp, вместо cpu-moe использовал n-cpu-moe - раскидал сколько смог слоев в видеокарту. n-cpu-moe на обычной llama.cpp дал 50 т/с, на ik_llama.cpp получил 60 т/с и заметно уменьшившееся время первого токена.
Правда вчера добавил вторую видеокарту и от cpu-moe отказался. Получил 75-80 т/с и почти мгновенный первый токен (на opencode разница в анализе крупного C# проекта аж в 3 (!!!ТРИ) раза)

Shannon May 21 at 09:07

вместо cpu-moe использовал n-cpu-moe - раскидал сколько смог слоев в видеокарту. n-cpu-moe на обычной llama.cpp дал 50 т/с, на ik_llama.cpp получил 60 т/с

Для qwen3.6 на днях добавили поддержку MTP, можно получить еще больше скорости без потери качества. Для Qwen3.6-35B-A3B ускорение не такое большое, как для Qwen3.6 27B, но оно тоже есть.

Вот тут подробнее: Qwen3.6 27B MTP весит на +0.3 Гб больше, а даёт ускорение в ~2 раза. С 60 t/s до 130 t/s без потерь. Что такое MTP

slabnoff May 21 at 13:49

По факту у меня сейчас форк ik_llama, который не умеет в MTP, крутит Qwen3.6-35B-A3B заметно быстрее, чем ветка llama с поддержкой MTP. В ближайшие дни буду разбираться, но у меня пока эффект от MTP скорее обратный. Даже на плотной модели 27b. Но тут возможно сказывается то, что кручу на двух видеокартах, а не на одной и, возможно, с MTP этим как-то конфликтует - это же пока в экспериментальной ветке.

slabnoff May 21 at 21:20

Сам себя исправляю. С 16 мая mtp в основной ветке. Поигрался с 27b, эффект есть, но с 18 т/с на 27 т/с - все равно грустно. А вот на 35b прирост всего 3 т/с - с 57 на 60, о чем многие пишут. В то же время ik_llama дает 77-80 без всяких mtp.

Исполняю сейчас все на 5060 ti и tesla t10, обе по 16 гб. Слабые, конечно, плюс pcie 3.0 (у 5060 вообще 8х), возможно упираюсь в скорость памяти и взаимный обмен

VGusev2007 Apr 25 at 08:59

Огромное спасибо за статью! Всё летает по вашим параметрам.

java73 Apr 26 at 09:30

Также благодарю за подсказу по настройкам. Сопоставимый уровень железок, только cpu другой, i7 12700KF, LM STUDIO не хочет больше 4 ядер отдавать.

Это нормальная скорость или можно и лучше? Сейчас схожу в opecode на использовании инструментов ее проверю.

java73 Apr 26 at 10:14

При этом почти весь РАМ забит (28 из 32 Гб), а видео память только 6 из 12 Гб. Может есть куда двинуть ползунки еще? Контекст поставил 65535, кинул длинную агентную задачу (найти файл, в нем взять список из 10 товарных знаков, по каждому сходить в интернет и проверить срок действия и последние изменения), выполняет все, но сильно медленно конечно. Слабое место - прцессинг промпта (ну или вывода инструментов, в моем случае снапшота chrome dev tools). Агентную задачу выполнил на отлично, выполнял 33 минуты с половиной. Но круто, пока это первая и последняя модель, локально справившаяся с агентной задачей.

slabnoff May 25 at 14:52

Немного запоздало отвечаю... Смотреть n-cpu-moe (как в LM-studio правильно называется не знаю) - добиваться того, чтобы на процессоре остался минимум слоев, а все что можно ушло в память видеокарты, пока ее хватает. Дополнительно здесь помочь может включение квантования KV-кэша (q8_0; агрессивный q4_0 не стоит пробовать - с ним эта модель очень быстро "рассыпается", так как быстро накапливается ошибка при таком квантовании) - освободится больше места во VRAM. Но по личному опыту для инференса MOE моделей на GPU-CPU лучше взять ik_llama.cpp, он наиболее эффективен для таких архитектур. И тот же CPU ему можно весь скормить. У меня на 5060 ti получилось при таком подходе выжать 60+ т/с, а 4070 должна быть быстрее.

Сильно замедляет при подходе CPU-GPU время первого токена - задержка перед ответом. У меня сейчас добавлена вторая видеокарта (то есть теперь все на GPU) с ней это время около 1 секунды, а вот с n-cpu-moe уже к 5 секундам. То есть красивые токены/с совсем не спасают при решении задач, подразумевающих множественные запросы. К примеру сейчас у меня прирост с 60+ т/с до около 80 т/с. Однако opencode анализирует проект минимум в 4 раза быстрее (4 минуты вместо около 20 минут).

java73 May 25 at 17:42

Если говорить об llama.cpp, то с ним чем проще, тем оказалось эффективнее: все что касается gpu/cpu - в auto, вручную только установил экспериментально лично на своем железе parallel в 1 и mtp в 2, контекст да, квантую в 8 и ещё кастомный jinja шаблон специфично под qwen, но это не к эффективности относится. Ну и в целом последние сборки llam'ы все лучше и лучше делают свою магию, ускоряя TFT, так и MTP. Уж не знаю чего делают, но работает вполне приемлемо.

slabnoff May 26 at 13:12

Ну вы же сами пишите, что занято 6 из 12. Или это не про llama.cpp? По идее, конечно, есть ключ --fit и подобное. Но я предпочел упаковывать руками и проверять, почему-то fit мне не помог.
Насчет магии llama... Посмотрите таки ik_llama, он для moe моделей заметно эффективнее, особенно для архитектуры gpu-cpu. Хотя бы процессор загружает максимально распараллеливая, в то время как класическая llama.cpp редко больше одного ядра загружает. Впрочем и чисто на GPU у меня он сейчас быстрее на Qwen3.6-35b

Cthilhu_go Apr 27 at 05:42

Ну вот и небольшая революция. Качественная модель и на слабом железе с огромным контекстом. Кстати, так можно щапускать модели вообще из другой весовой категории -глм 5 например.

d00m911 Apr 28 at 03:38

Никакой революции, к сожалению. Для задач кодинга это слабая модель. MoE-архитектура идеально подходит для локальных помощников с широким спектром простых задач вроде простых переводов, простых случаев написания скриптов, но вот для больших и сложных проектов, связанных с кодингом, они подходят плохо.

Потому что вы и сами можете представить, насколько сильно страдает качество генерации, учитывая, что там реально 3 миллиарда активных параметров.

Для реальных задач в области разработки нужно использовать либо очень большие MoE, либо dense-модели вроде недавно вышедшей qwen 3.6 27b (тоже маленькая, но она точно гораздо лучше в программировании).

Andnet Apr 28 at 23:47

Абсолютно верно. И вообще для разработки никакие 20-30В не годятся. Статья на хайпе просто о том что запустил и рад. 40 токенов в секунду. Тут 300 то не хватает. А в Openclaw и подавно такие скорости малопригодны. Ну как выше уже написали, только как ассистенты, болталки в чатах и поиск инфы в инете. Не серьезно.

Rjohn55 May 4 at 15:50

Запускаешь на vllm на несколько Майнинг картах и скорость 240 на параллельных запросах и агенту хватает и все работает, и агента норма ставь не опенговноклав, а гермес.

Ozgal May 4 at 05:00

Удалось получить: ~507.9 токенов/сек

AMD Ryzen 9 5950X OEM

NVIDIA GeForce RTX 4080 (16gb VRAM)

32Gb ram

NVIDIA GeForce RTX 4080

Версия драйвера:	32.0.15.9579
Дата разработки:	04.03.2026
Версия DirectX:	12 (FL 12.2)
Физическое расположение:	PCI-шина 5, устройство 0, функция 0

Использование	93%
Выделенная память графического процессора	15,1/16,0 ГБ
Общая память графического процессора	0,4/16,0 ГБ
Оперативная память графического процессора	15,5/32,0 ГБ

ne_pridumal_nik May 6 at 09:51

Есть у кого опыт по аналогичному запуску дообученных вариантов этой модельки?

AZimin May 13 at 05:18

Здравствуйте, кто-то еще столкнулся с doom loop у qwen3.6-35b-a3b, если да, то как решали проблему с tool calls doom loop на "больших" контекстных окнах ? они появляются даже при контекстном окне 131072...