Комментарии 17
Пользуюсь локальным qwen 3.5 9b
Аналогично это же использую локально:)
Старшая модель Qwen3.6-Plus в веб-чате https://chat.qwen.ai/ и по api реально очень хороша. А вот в Qwen Code CLI какая-то другая модель, заметно послабее и медленная, единственный плюс, что бесплатная:)
Qwen3.6-Plus хорошо работает вместе с другими моделями, так как, ИМХО, ни одна модель не может работать всегда без ошибок и перекрестной проверки и перепроверки.
Поднял openclaw и локально Qwen3.5-27B - ШИКАРНО. В unsloth 4 бит кванте (и q8_0 квантизацией KV кеша) влезает в 4090 с контекстом 128к.
С турбоквантом (есть в форке buun-llama-cpp) должно и с 256к контекстом влезть, но его собирать из исходников лень.
Ну и до этого полгода гонял разные модели квенов (в том числе самые большие на 300B+) локально на разных задачах - от чатов и RAG до кодинга: пока что dense модель на 27 ощущается умнее чем 120B MoE. Оно и неудивительно - у мое 10B активных, а тут все 27.
По скорости не принципиально, 60т/с против 48т/с у плотной.
я из другого форка собрал турбоквант, да работает без проблем с 256к контекстом, на вин 11 занято 20-22gb vram, есть ещё квопус, это то же самое только размышления дообучены на данных от opus и он ещё лучше + короче размышления, подключаю к нему ещё локальный searxng по mcp итого он имеет доступ к поиску и просмотру сайтов, просто отличная связка для локальной работы на 24gb vram
пример (rtx3090 30ток/с)

Вы эту модель дообучали тоже?
А что не так с тем же qw/qwen3-coder-plus?
Я через omniroute настроил масс аккаунты и сижу без лимитов. Тот же kr/claude-sonnet-4.5 тоже можно подключить. И openclaw с его cron-ами и 2 проекта поверх этого всего. Это всё настроить на самом дешевом впс и просто через запросы перенаправлять к своему пк.
" что не так с тем же qw/qwen3-coder-plus? " - он слабый:) и почему-то на omniroute у меня не завёлся.
kr/claude-sonnet-4.5 - через время протух.
Сделать несколько аккаунтов это, наверное, хорошая идея:)
Аналогично. Что только не пробовал (ограничен 16 гб vram 5060 ti), но наиболее адекватным и производительным оказалась qwen3.5-9b. Жаль, в отличие от более старых версий, нет варианта 14b. Более менее по субъективному ощущению 'интеллекта' сопоставима gpt-oss-20b, но gpt раза в 2-3 медленнее. В то же время старые модели qwen до 3.5 ощущаются какими-то кривыми: то с home assistant не дружат, то зацикливаются в ответах, то имеют кривоватый русский язык.
Для чего? Просто представить не могу что можно делать такой моделью. Попробовал Qwen 3.5 27B - ужасное впечатление. Чего я не понимаю?
Пока ничего сложнее "отрефактори мне этот кусок кода" или "сгенери ui код по этому экрану из фигмы" я у нее не спрашивал
Доки и тесты тоже генерит.
А у вас какие задачи?
а зачем для этого морочиться с локальной моделью, это всё прекрасно делает любая бесплатная облачная. Просто не понимаю, если у меня сложная задача - запилить серьёзное приложение - на локалке только время убивать, надо идти на облако. А делать какие-то кусочки, ну мне не надо кусочки, мне надо что-то целостное. Задачи у меня такие, что чем умнее, тем лучше, быстрее и дешевле (по моим трудозатратам). Вычищать белиберду из ответа обрезка - так себе развлечение. По тому и не понятно - зачем?
Я крутил 27b q4 на двух 9070 с контекстом 128к, было отлично. Но потом раскидал 9070 на 2 машины и стал крутить 122b, в итоге общая производительность увеличилась а качество не упало.

Qwen стал лидером open-source рынка — у модели 942 млн загрузок