Comments 22
Почему Claude Code, a не, например, Pi? А самый главный минус Strix Halo - нет возможности кластеризации, в отличии от Spark’ов.
Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.
Интересный подход. Strix Halo с unified memory — отличная платформа для локальных AI-агентов. Как Qwen3.6 справляется с рефакторингом больших файлов? На 32B-моделях контекст часто проседает после ~1500 строк, интересно, как тут.
это не правда
minisforum на своем ms-s1max - показывали кластер из 2 - для запуска моделей 245b, и 4х для 671b (на официальном yooutube)
а еще посоветую посмотреть на youtube Donato Capitella он как раз показывает что можно сделать в кластере + болшую производительнрость для кластера через rocm и сетевые карты 10гбит/с
Спасибо за ваши статьи!
Кажется, остаётся не реализованным главный потенциал платформы: много памяти одним куском. Для использования данной пары моделей достаточно и пары бытовых GPU (причём, они там и существенно лучше справились бы). В этом смысле, интуитивно хочется видеть задействованный под капотом какой-нибудь GPT-OSS-120B, который недоступен на традиционных бытовых GPU.
Раньше я использовал в основном gpt-oss-120b, потом qwen3-coder-next (80 млрд параметров), с появлением qwen3.6 перешел на модели этой линейки. Качество ответов у них выше, контекстное окно больше. Из имеющихся сейчас моделей 3.6 показалось оптимальным выбором.
Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.
Зачем такие сложности? Просто запускаем ванильный ollama server, правим systemd добавляя env Environment=“OLLAMA_HOST=0.0.0.0:11434”, ставим редактор zed - выбираем из списка ollama прописываем ip своего сервера и окно контекста и все.
И всё-таки для моделей qwen надо бы юзать qwen-code. Тем более, что qwen-code - это произведение искусства
qwen-coder достаточно старый и плохо работает даже по инструкции
ЧебурБЕНЧ

Речь о разных вещах. Комментатор выше пишет про qwen-code – это агент CLI (он может работать с любыми моделями, но скорее всего лучше оптимизирован под модели Qwen). А вы пишете про линейку моделей Qwen Coder (при чем для примера приводите старую модель в линейке).
Да, это стоит попробовать, спасибо за наводку. Ранее смотрел в сторону qwen code. Но на тот момент это была еще сырая система, только только скопированная с гугловской cli. Возможно, ситуация изменилась.
Если к этому мини пк докинуть любую видеокарту, из недорогих в идеале 3070м 16гб (500 гб/с память) через м2 псие 4х4, то скорость увеличиться вдвое. Потребление всего 110 вт в прыжке, очень холодные.
KevinJK51/Qwen3.6-12B-IQ-Ultra-Heretic-Uncensored-Thinking-V2-Hightop-GGUF гуглАИ считает она лучше чем Qwen3.6-35B-A3B-MTP
На 2xRTX3090 + 2x3090 ti получаю с pipeline-параллелизмом сопоставимые скорости генерации этих моделей на около пустом контексте без МТР. Но зато без квантований ни модели, ни кэша, размер контекста 262144.
Но вот скорость чтения промпта от 1000 до 1450 токенов в секунду.
Если хотите использовать одновременно несколько локальных моделей, о не думали использовать llama-swap? Он выгружает/загружает модели в зависимости от того что просит клиент. Сам никак не доберусь ибо остановился на qwen 3.6 27b
12 месяцев по 10 тыс. =120000 тыс. против … хотелось бы увидеть тут цену и видюху для перехода на локальную разработку на квен 3.6 и ответ стоит оно того или нет?
Claude Code с локальными Qwen3.6 на AMD Strix Halo: полное руководство по настройке