Pull to refresh

Comments 22

Почему Claude Code, a не, например, Pi? А самый главный минус Strix Halo - нет возможности кластеризации, в отличии от Spark’ов.

Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.

Интересный подход. Strix Halo с unified memory — отличная платформа для локальных AI-агентов. Как Qwen3.6 справляется с рефакторингом больших файлов? На 32B-моделях контекст часто проседает после ~1500 строк, интересно, как тут.

это не правда

minisforum на своем ms-s1max - показывали кластер из 2 - для запуска моделей 245b, и 4х для 671b (на официальном yooutube)

а еще посоветую посмотреть на youtube Donato Capitella он как раз показывает что можно сделать в кластере + болшую производительнрость для кластера через rocm и сетевые карты 10гбит/с

https://minisforum.ru/products/minisforum-ms-s1-max

Спасибо за ваши статьи!

Кажется, остаётся не реализованным главный потенциал платформы: много памяти одним куском. Для использования данной пары моделей достаточно и пары бытовых GPU (причём, они там и существенно лучше справились бы). В этом смысле, интуитивно хочется видеть задействованный под капотом какой-нибудь GPT-OSS-120B, который недоступен на традиционных бытовых GPU.

Раньше я использовал в основном gpt-oss-120b, потом qwen3-coder-next (80 млрд параметров), с появлением qwen3.6 перешел на модели этой линейки. Качество ответов у них выше, контекстное окно больше. Из имеющихся сейчас моделей 3.6 показалось оптимальным выбором.

Подтверждаю. qwen3.6 - первая модель которая реально выполняет работу в качестве агента более ли менее полноценно.

Но минимально надо брать 6 битную. На 4 бита качество слишком сильно падает.

После qwen3.6 - удалил все qwen-coder. Даже gemma4 которая на выходе впечатляла - теперь пылится.

Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.

Зачем такие сложности? Просто запускаем ванильный ollama server, правим systemd добавляя env Environment=“OLLAMA_HOST=0.0.0.0:11434”, ставим редактор zed - выбираем из списка ollama прописываем ip своего сервера и окно контекста и все.

И всё-таки для моделей qwen надо бы юзать qwen-code. Тем более, что qwen-code - это произведение искусства

qwen-coder достаточно старый и плохо работает даже по инструкции

ЧебурБЕНЧ
Чебурашка
Чебурашка

Речь о разных вещах. Комментатор выше пишет про qwen-code – это агент CLI (он может работать с любыми моделями, но скорее всего лучше оптимизирован под модели Qwen). А вы пишете про линейку моделей Qwen Coder (при чем для примера приводите старую модель в линейке).

А, ну может быть, тогда я перепутал, сорян.

Да, это стоит попробовать, спасибо за наводку. Ранее смотрел в сторону qwen code. Но на тот момент это была еще сырая система, только только скопированная с гугловской cli. Возможно, ситуация изменилась.

Если к этому мини пк докинуть любую видеокарту, из недорогих в идеале 3070м 16гб (500 гб/с память) через м2 псие 4х4, то скорость увеличиться вдвое. Потребление всего 110 вт в прыжке, очень холодные.

Лучше 3090 с 24 Гб. Тогда можно будет qwen3.6-27b побыстрее инференсить. Наверное, с 50 t./s. Но модель сжатую до q4 придется юзать при этом.

KevinJK51/Qwen3.6-12B-IQ-Ultra-Heretic-Uncensored-Thinking-V2-Hightop-GGUF гуглАИ считает она лучше чем Qwen3.6-35B-A3B-MTP

Лучше в чём?

Она будет быстрее - да, она будет без цензуры, но на этом всё. Код писать эта модель будет хуже чем оригинальная.

На 2xRTX3090 + 2x3090 ti получаю с pipeline-параллелизмом сопоставимые скорости генерации этих моделей на около пустом контексте без МТР. Но зато без квантований ни модели, ни кэша, размер контекста 262144.

Но вот скорость чтения промпта от 1000 до 1450 токенов в секунду.

Если хотите использовать одновременно несколько локальных моделей, о не думали использовать llama-swap? Он выгружает/загружает модели в зависимости от того что просит клиент. Сам никак не доберусь ибо остановился на qwen 3.6 27b

Выгрузка и загрузка моделей сильно замедляет сессию. Не прижилось как то.

Тем более на 96gb vram проще несколько моделей сразу загрузить

Не уверен что на windows версии есть такие параметры, но на linux я добавляю в llama.cpp сервер ещё –no-mmap --fit off

12 месяцев по 10 тыс. =120000 тыс. против … хотелось бы увидеть тут цену и видюху для перехода на локальную разработку на квен 3.6 и ответ стоит оно того или нет?

Sign up to leave a comment.

Articles