Обновить

Комментарии 17

Пользуюсь локальным qwen 3.5 9b

Аналогично это же использую локально:)

Старшая модель Qwen3.6-Plus в веб-чате https://chat.qwen.ai/ и по api реально очень хороша. А вот в Qwen Code CLI какая-то другая модель, заметно послабее и медленная, единственный плюс, что бесплатная:)

Qwen3.6-Plus хорошо работает вместе с другими моделями, так как, ИМХО, ни одна модель не может работать всегда без ошибок и перекрестной проверки и перепроверки.

Поднял openclaw и локально Qwen3.5-27B - ШИКАРНО. В unsloth 4 бит кванте (и q8_0 квантизацией KV кеша) влезает в 4090 с контекстом 128к.

С турбоквантом (есть в форке buun-llama-cpp) должно и с 256к контекстом влезть, но его собирать из исходников лень.

Ну и до этого полгода гонял разные модели квенов (в том числе самые большие на 300B+) локально на разных задачах - от чатов и RAG до кодинга: пока что dense модель на 27 ощущается умнее чем 120B MoE. Оно и неудивительно - у мое 10B активных, а тут все 27.

По скорости не принципиально, 60т/с против 48т/с у плотной.

я из другого форка собрал турбоквант, да работает без проблем с 256к контекстом, на вин 11 занято 20-22gb vram, есть ещё квопус, это то же самое только размышления дообучены на данных от opus и он ещё лучше + короче размышления, подключаю к нему ещё локальный searxng по mcp итого он имеет доступ к поиску и просмотру сайтов, просто отличная связка для локальной работы на 24gb vram

пример (rtx3090 30ток/с)

Вы эту модель дообучали тоже?

Ничего не дообучал, использую полностью стоковые кванты от unsloth

А что не так с тем же qw/qwen3-coder-plus?
Я через omniroute настроил масс аккаунты и сижу без лимитов. Тот же kr/claude-sonnet-4.5 тоже можно подключить. И openclaw с его cron-ами и 2 проекта поверх этого всего. Это всё настроить на самом дешевом впс и просто через запросы перенаправлять к своему пк.

" что не так с тем же qw/qwen3-coder-plus? " - он слабый:) и почему-то на omniroute  у меня не завёлся.
kr/claude-sonnet-4.5 - через время протух.
Сделать несколько аккаунтов это, наверное, хорошая идея:)

У меня 5 акков на сонете. Qwen и правда показывает себя хуже аналога с их платформы. Но тот же соннет работает идеально. Иногда только 400 input too long вылазит хз что с этим делать.

Аналогично. Что только не пробовал (ограничен 16 гб vram 5060 ti), но наиболее адекватным и производительным оказалась qwen3.5-9b. Жаль, в отличие от более старых версий, нет варианта 14b. Более менее по субъективному ощущению 'интеллекта' сопоставима gpt-oss-20b, но gpt раза в 2-3 медленнее. В то же время старые модели qwen до 3.5 ощущаются какими-то кривыми: то с home assistant не дружат, то зацикливаются в ответах, то имеют кривоватый русский язык.

А 122b-a10b не работает с экспертами в RAM? Должна быть чуток поумнее с такой же примерно скоростью, если RAM хватает.

зачем уж сразу в 122b есть же 35b a3b даже эта модель значительно умнее чем 9b

Для чего? Просто представить не могу что можно делать такой моделью. Попробовал Qwen 3.5 27B - ужасное впечатление. Чего я не понимаю?

Пока ничего сложнее "отрефактори мне этот кусок кода" или "сгенери ui код по этому экрану из фигмы" я у нее не спрашивал

Доки и тесты тоже генерит.

А у вас какие задачи?

а зачем для этого морочиться с локальной моделью, это всё прекрасно делает любая бесплатная облачная. Просто не понимаю, если у меня сложная задача - запилить серьёзное приложение - на локалке только время убивать, надо идти на облако. А делать какие-то кусочки, ну мне не надо кусочки, мне надо что-то целостное. Задачи у меня такие, что чем умнее, тем лучше, быстрее и дешевле (по моим трудозатратам). Вычищать белиберду из ответа обрезка - так себе развлечение. По тому и не понятно - зачем?

Я крутил 27b q4 на двух 9070 с контекстом 128к, было отлично. Но потом раскидал 9070 на 2 машины и стал крутить 122b, в итоге общая производительность увеличилась а качество не упало.

не понял. Две 9070 это 32Гб видеопамяти. Qwen 3.5 27b q4 влезет без вопросов. А Qwen3.5-122B-A10B требует 48Гб, как вы запускали её на одной 9070 ?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости