Walker2000 Jun 10 at 05:00

Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке

Medium

11 min

15K

Computer hardwareArtificial IntelligenceProgramming *

Tutorial

+23

Comments 45

jetnet Jun 10 at 05:24

Почему Claude Code, a не, например, Pi? А самый главный минус Strix Halo - нет возможности кластеризации, в отличии от Spark’ов.

Walker2000 Jun 10 at 06:18

Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.

pesh1983 Jun 11 at 17:03

А можете раскрыть тему? Чем, например, Клауд код лучше того же опенкод? Пользуюсь последним, вполне себе, поэтому хотелось бы отзыв от того, кто обоими пользовался.

Alecandr761 Jun 12 at 14:02

https://youtu.be/U4cgJUbnwP0?si=4KFhqHHItxDwOMXy

Тут товарищ хорошо раскрыл особенности 3х популярных приложений

Genius_Russian_Coders Jun 10 at 07:04

Интересный подход. Strix Halo с unified memory — отличная платформа для локальных AI-агентов. Как Qwen3.6 справляется с рефакторингом больших файлов? На 32B-моделях контекст часто проседает после ~1500 строк, интересно, как тут.

pesh1983 Jun 11 at 17:02

deleted

InfintiyWorm Jun 10 at 11:01

это не правда

minisforum на своем ms-s1max - показывали кластер из 2 - для запуска моделей 245b, и 4х для 671b (на официальном yooutube)

а еще посоветую посмотреть на youtube Donato Capitella он как раз показывает что можно сделать в кластере + болшую производительнрость для кластера через rocm и сетевые карты 10гбит/с

https://minisforum.ru/products/minisforum-ms-s1-max

jetnet Jun 11 at 04:37

Да, сорян, забыл про танцы с бубнами (RDMA): https://www.youtube.com/watch?v=32cjdHVoSRo

InfintiyWorm Jun 11 at 10:01

ничего что в видео, автор ссылается на Donato Capitella про которого я упоминал.

у него уже решена проблема медленности, и есть тесты на rocm, который релизнули в апреле

там по видео видно, что основная проблема, это найти сетевые карты с поддержкой RDMA, обновить ядро федоры минимум до 6.18 (именно в ней обновили rocm) и тогда все завелось и начало работать.

медленно, да, но это пока только для энтузиастов.

при этом spark dgx имеет преимущество 1-2т/с перед 395 ai max, при стомости примерно на 1т больше.

в тоже время у 395 ai max - можно подключить внешнюю видеокарту и получить еще большую скорость работы в малых моделях. minisforum ms-s1 max на борту имеет pci 16(4x0) и usb4v2. есть модели со встроенным oculink 4x0

лучше всего у apple с локальными моделями, мало того что есть версии на 256гб рам (стоят правда) так еще и память быстрее + шина больше + оптимизация под маки

Smolensk Jun 10 at 05:30

Спасибо за ваши статьи!

Кажется, остаётся не реализованным главный потенциал платформы: много памяти одним куском. Для использования данной пары моделей достаточно и пары бытовых GPU (причём, они там и существенно лучше справились бы). В этом смысле, интуитивно хочется видеть задействованный под капотом какой-нибудь GPT-OSS-120B, который недоступен на традиционных бытовых GPU.

Walker2000 Jun 10 at 05:36

Раньше я использовал в основном gpt-oss-120b, потом qwen3-coder-next (80 млрд параметров), с появлением qwen3.6 перешел на модели этой линейки. Качество ответов у них выше, контекстное окно больше. Из имеющихся сейчас моделей 3.6 показалось оптимальным выбором.

ponikrf Jun 10 at 23:41

Подтверждаю. qwen3.6 - первая модель которая реально выполняет работу в качестве агента более ли менее полноценно.

Но минимально надо брать 6 битную. На 4 бита качество слишком сильно падает.

После qwen3.6 - удалил все qwen-coder. Даже gemma4 которая на выходе впечатляла - теперь пылится.

Walker2000 Jun 10 at 05:31

Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.

iwram Jun 10 at 06:23

Зачем такие сложности? Просто запускаем ванильный ollama server, правим systemd добавляя env Environment=“OLLAMA_HOST=0.0.0.0:11434”, ставим редактор zed - выбираем из списка ollama прописываем ip своего сервера и окно контекста и все.

sN00b Jun 11 at 13:35

Все дело в производительности. Если не хотите заморачиваться, хотяб через LM Stuio это делайте. Данное решение производительнее

netricks Jun 10 at 06:43

И всё-таки для моделей qwen надо бы юзать qwen-code. Тем более, что qwen-code - это произведение искусства

jetnet Jun 10 at 10:04

qwen-coder достаточно старый и плохо работает даже по инструкции

ЧебурБЕНЧ

holgw Jun 10 at 10:30

Речь о разных вещах. Комментатор выше пишет про qwen-code – это агент CLI (он может работать с любыми моделями, но скорее всего лучше оптимизирован под модели Qwen). А вы пишете про линейку моделей Qwen Coder (при чем для примера приводите старую модель в линейке).

jetnet Jun 10 at 11:25

А, ну может быть, тогда я перепутал, сорян.

Walker2000 Jun 10 at 11:05

Да, это стоит попробовать, спасибо за наводку. Ранее смотрел в сторону qwen code. Но на тот момент это была еще сырая система, только только скопированная с гугловской cli. Возможно, ситуация изменилась.

melodictsk Jun 10 at 11:06

Если к этому мини пк докинуть любую видеокарту, из недорогих в идеале 3070м 16гб (500 гб/с память) через м2 псие 4х4, то скорость увеличиться вдвое. Потребление всего 110 вт в прыжке, очень холодные.

Walker2000 Jun 10 at 15:15

Лучше 3090 с 24 Гб. Тогда можно будет qwen3.6-27b побыстрее инференсить. Наверное, с 50 t./s. Но модель сжатую до q4 придется юзать при этом.

DamirMur Jun 10 at 16:09

KevinJK51/Qwen3.6-12B-IQ-Ultra-Heretic-Uncensored-Thinking-V2-Hightop-GGUF гуглАИ считает она лучше чем Qwen3.6-35B-A3B-MTP

rodial Jun 10 at 18:29

Лучше в чём?

Она будет быстрее - да, она будет без цензуры, но на этом всё. Код писать эта модель будет хуже чем оригинальная.

DamirMur Jun 11 at 01:09

3B меньше чем 12B, так что кто будет код хуже писать, ИИ считает что 3B

sN00b Jun 11 at 12:05

Она будет хуже unsloth/Qwen3.6-27B-MTP-GGUF. И то и то - Dance модели. Могу сравнить на Strix Halo вашу модель с Qwen3.6-35B-A3B-MTP - это MoE модель но параметров в ней в 3 раза больше чем в вашей. И если уж использовать Heretic на Strix Halo, то DavidAU/Qwen3.6-40B-Claude-4.6-Opus-Deckard-Heretic-Uncensored-Thinking-NEO-CODE-Di-IMatrix-MAX-GGUF. Эта даже 1С ку берет. Но выдает 5 токенов в секунду.

Liugger Jun 10 at 16:54

На 2xRTX3090 + 2x3090 ti получаю с pipeline-параллелизмом сопоставимые скорости генерации этих моделей на около пустом контексте без МТР. Но зато без квантований ни модели, ни кэша, размер контекста 262144.

Но вот скорость чтения промпта от 1000 до 1450 токенов в секунду.

Если хотите использовать одновременно несколько локальных моделей, о не думали использовать llama-swap? Он выгружает/загружает модели в зависимости от того что просит клиент. Сам никак не доберусь ибо остановился на qwen 3.6 27b

Walker2000 Jun 10 at 17:25

Выгрузка и загрузка моделей сильно замедляет сессию. Не прижилось как то.

rodial Jun 10 at 18:07

Тем более на 96gb vram проще несколько моделей сразу загрузить

Не уверен что на windows версии есть такие параметры, но на linux я добавляю в llama.cpp сервер ещё –no-mmap --fit off

dilmah949 Jun 10 at 22:00

12 месяцев по 10 тыс. =120000 тыс. против … хотелось бы увидеть тут цену и видюху для перехода на локальную разработку на квен 3.6 и ответ стоит оно того или нет?

Mintavrus Jun 11 at 04:41

2х RTX3090 ~120 тыс руб на Авито. Модель Qwen3.6-27b-q8_k_xl-mtp работает на скорости 1200 токен/сек префил и 45-50 токен/сек генерация. То есть более чем в 7 раз выше чтение промпта и в 3 раза выше генерация, чем в обсуждаемом в статье решении. На мой взгляд стоит того и отрабатывает свои деньги.

gevals Jun 11 at 04:35

Интересно, в итоге какова цена вопроса? Оборудование, сам компьютер, потребление электричества

Walker2000 Jun 11 at 04:58

Мини ПК на strix halo со 128 ГБ на Озон сейчас от 250 тыс. Подорожало, до нового года было в районе 180. Потребление в зависимости от режима. От 60 до 120 Вт. Нормально работает в среднем (80…90 Вт). Разгонять до 120 смысла особого нет, скорость генерации практически не растет.

Mintavrus Jun 11 at 04:36

Странный и не логичный выбор настроек. Если у Вас много памяти, то почему не использовать модель с квантованием Q8_K_XL, которая лучше чем Q6? Опять же, при большом объеме памяти, зачем вы квантуете кэш на q8, вместо того чтобы использовать bf16? Это же снижает качество генерации, особенно ощутимо на больших контекстах, и не даёт никакой прибавки в скорости. По моему опыту, лучше использовать Open Code, он работает отлично и не имеет никаких проблем с контекстом 260k.

Walker2000 Jun 11 at 04:48

Хорошее замечание. Я поджал модели для того, чтобы влезали в память сразу три. Но потом остановился на двух. Поэтому можно параметры поднять слегка. На сколько по вашим ощущениям увеличивается качество генерации с KV кэшем в bf16 по сравнению с Q8? Я читал, что разницы не заметно.

Mintavrus Jun 11 at 05:17

На счёт кэширования кэша, тут сложно судить объективно, так так я не проводил тестирование в связи с отсутствием у меня бенчмарка данной метрики, но судя по статьям с исследованиями, которые я читал на реддите, разница имеется. Но в любом случае, при наличии свободной памяти квантование кэша выглядит не логичным.

Walker2000 Jun 12 at 10:19

Пришлите ссылочку, если не затруднит.

sN00b Jun 11 at 13:29

Q8 в полтора раза медленнее Q6. Опыт показал что 5-6 квант на этой машине работает оптимально.

sN00b Jun 11 at 15:27

Автор, огромное Вам спасибо! Раньше мучался с Dance-моделями на скорости записи в 5 токенов в секунду. Но попробовал вашу модельку, правда в связке с openclaude, а не claude code. Cкорость выросла в 3 раза благодаря MTP. Теперь у меня такой сетап: OpenCode для MoE модельки, он хорошо ужимает контекст и справляется с легкими задачами. OpenClaude для работы с Dance моделью и большим контекстом без компрессии.

Walker2000 Jun 11 at 16:58

Не за что. Рад, что статья принесла пользу )

Cayenne007 Jun 15 at 10:17

Тоже использую llama + qwen3.6 xl mtp. Правда вместо windows у меня proxmox и, кажется, для strix halo это очень хороший выбор, можно в контейнерах lxc использовать gpu ускорение для llm без gpu passthrough.

Спасибо за идею использовать Claude code + local llm попробую)

lazutkinAN Jun 16 at 07:58

Спасибо за ваш труд! Очень к месту оказалась для старта. Как я понял, работаете в Windows 11. Рассматривали переезд или тестировали на Linux (например, Ubuntu 26.04)? Есть ли смысл или ограничиться WSL2?

Walker2000 Jun 17 at 06:33

Добрый день. Спасибо за оценку )

Вообще пишут, что для максимизации производительности лучше перейти на Linux. Но в моем случае компьютер по выполняет функции офисного. Как-от переходить специально на Linux выглядит излишним. С WSL не экспериментировал по причине дефицита времени.

sN00b Jun 18 at 07:36

Лично я использую Fedora 43 Server из-за cockpit'а. Машинка стоит дома, подключаюсь удаленно. Единственная проблема - так и не смог побороть вылеты в рантайме при сборке llama-cpp под ROCm на данной ОС. пришлось собирать под Vulkan, с ним все заработало с первого раза.

lazutkinAN Jun 18 at 10:13

Как сервер не рассматривал, только как настольный пк (fevm faex1). Склоняюсь к переносу части задач (почти вся разработка) на 2ю ОС Ubuntu 24.04, так как есть много задач, которые делал на wsl2 до этого, W11 так же остаётся со своим набором приложений и задач