Comments 78
пользуюсь постоянно, пока ценник 0, это отличный инструмент, ну и лично у меня он лучше всего работает с локальными моделями, как минимум значительно быстрее всех, все остальные то ли не пользуются кэшем, толи ещё что, например в claude code чем больше контекста тем больше он его обрабатывает и замедляется
p.s. не понял насчёт oauth он же без проблем работает в консоли, вроде как даёт qr код + ссылку для авторизации через браузер
Попробуйте OpenCode проект очень активно развивается, по два релиза в день. Пользуюсь им для локальных моделей. Не для локальных то же, с ним можно почти ко всем поставщикам API напрямую подключаться по ключу. Для Qwen не имеет смысла, т.к. есть свой агент, а вот для GLM и MiniMax имеет, модели то же очень хорошие, вообще все китайские модели за последние пару месяцев сильно подтянулись, я бы сказал что это уже почти уровень последних версий GPT и Gemmini, а до Opus 4.6 всем далеко включая тех двух. Как минимум так была на пару недель назад, сейчас Opus почему-то сильно тупеет, начинает полный бред выдавать и какой-то ерундой страдать. Плюс сильно замедлился. Такое чувство что в пиковые часы его или на более простую модель подменяют, или крутят ему уровень "умности". Но работать стал плохо.
Новость была, что claude урезала на 2/3 количество циклов размышлений (никому не сказав) , поэтому и стал глупым. Шринкфляция по ии'шевски
А какие локальные модели используете и какие задачи решаете?
Какие задачи можно решать с помощью кодинг агента? Программировать. Работаю с большим игровым проектом. Локальными моделями с рабочим. Облачными с домашними хомяками.
Если вы не олигарх, то выбор локальных моделей у вас сильно ограничен размером вашей видеопамяти. Как правило это будет 16-32Гб, еще неделю назад лидер там был один Qwen 3.5, потом вышла Gemma 4. Последняя вроде чуть лучше, но пока у нее проблемы с вызовом тулов, надо немного подождать пока ее подфиксят. На самом деле у обоих моделей два варианта, чисто текстовая "сплошная" модель и мультимодальные MoE варианты. Программируют лучше "сплошные" текстовые версии. Но тут засада, "сплошные" версии сильно падают в скорости, если вы ее распиливаете между GPU и CPU, а на 16Гб видеопамяти вы будете ее распиливать. На 24Гб уже можно запустить UD вариант Qwen3.5 27B чисто на видеокарте. А если еще взять чистый llama.cpp и экспериментальный бранч с TurboQuant то и контекста больше 100к токенов получится сделать.
Если коротко возиться с локальными моделями имеет смысл, если есть очень строгое ограничение на использование облачных моделей. Во всех остальных случаях заплатите 20-60 баксов за Cursor, GLM, Kimi, Minimax, Qwen(можно не платить) и получите на порядки лучше результат. Разница между локальными и облачными просто огромная, катастрофическая. Любая(из популярных) облачная модель будет на порядки(именно порядки!) умнее и лучше локальной в пределах 80B(а для запуска такого вам надо будет иметь железа на $3500-10000). Собственно за эти деньги вы можете пару лет оплачивать самые дорогие тарифы любого облака.
Qwen вроде нет теперь облачного-бесплатного
У меня 5060ти и вчера смотрел, какие модельки можно взять в Олламе. Gemma 4 как будто пока очень большая (26гб вроде), а модели на 12b не нашел
qwen3.5 есть, а вот qwen3.6 как будто тоже, еще не распилили на маленькие
на 5060ти будет крайне сложно, но в целом можно, я использую unsloth/Qwen3.6-35B-A3B-GGUF,
1) модель качал и Hugging Face, стоит попробовать разные варианты, но ниже Q4 кванта спускаться не стоит, лучше всего конечно будет работать UD-Q4_K_XL но 22Гб, надо будет сильно распиливать между CPU и GPU, можно попробовать UD-Q4_K_S
2) нужно брать эксперементальный бранч llama.cpp с турбоквантом, без него будет борода я брал собранные бинари atomicmilkshake/llama-cpp-turboquant-binaries опять же с Hugging Face
3) параметры запуска: если коротко я их проблюбил, лучше всего их подскажет Grok, по сути там важно врубить турбоквант и опцию когда будет автоматическое распиливание между GPU и CPU памятью по экспертам, а не по слоям. Ну и контекст токенов на 130к.
4) Агента лучше всего использовать opencode, Grok опять же подскажет как его настроить.
Так можно вытащить на вашей видеокарте 10-15токенов в секунду, возможно на большом контексте будет падать.(хотя я не знаю какой у вас проц, желательно что бы ядер было побольше, 16-ть и больше. Короче топовый проц нужен).
Я модели на 22Гб запускаю нормально с контекстом на 130т токенов, на видеокате 5080Ti(16gb) и 285k и выжимаю 50 токенов в секунду. На домашней 4090 перф улетает до 70 токенов в секунду. Модель Qwen3.6-35B очень умная, прям невероятно для такой маленькой модели.
будет здорово увидеть от вась статью по запуску.
У меня 7800xt. Во первых максимум что получалось запустить без проблем это 9b с максимальным контектом, чтобы гонять Гермеса На моделях 35b можно работать в режиме чата, но все падает с нехваткой памяти после раздутия контекста (в агенстком режиме).
Также Я сравнивал llama.ccp последних версий и LM studio - разницы в производительности уже никакой нет - 55 токенов в сек.
На АМД картах турбоквант пока не работает, без него на контекст нужно 5Гб видеопамяти, с ним около 1Гб. Это если контекст больше 100 тысяч токенов брать. Фишка MoE моделей в том что они очень лояльны к gpu offload - это разделение модели между оперативной и видеопамятью. Рецепт в целом так же, брать unsloth/Qwen3.6-35B-A3B-GGUF только в варианте UD-Q4_K_M. В LMStudio эти модели прям есть. А дальше подбирать параметр GPU Offloading так что бы у вас не была перегружена видеопамять, думаю что реально это будет между 18 и 22 слоями. Токенов 15-20 вы должны получить, но учтите что перф будет падать по ходу увеличения контекста.
Вам действительно нужны именно локальные модели? Qwen3.6-35B в таком размере это маленькое чудо по уровню кодинга, но она сильно проигрывает большим моделям. Любым, хоть китайским, хоть западным. DeepSeek V4 сейчас самый топ из китайских доступен на OpenRouter за копейки(по сравнению с GPT в Cursor) пишет лучше любой локальной модели в размере 30-120B. Заморачиваться с локальными моделями есть смысл если вот совсем совсем никак нельзя использовать облачные. В остальных случая потратьте денег примерно как пиццу заказать и программируйте через облачные.
во всем согласен.
Q4_K_M полностью не влазит в 16ГБ.
Я остановился на IQ3_XS - 65к контекст, все в VRAM. локально моделька нужно для гермеса. Хотя других задач я для себя еще не придумал. Код пишут хорошо только топы - gtp, opus. deepseek не пробовал, так как нужно морочится с китайской оплатой
Q4_K_M полностью не влазит в 16ГБ.
Да, поэтому я и сказал про GPU Offloading, вы можете любое количество слоев перенести на CPU, это притормозит инференс, но если будет именно MoE модель, то не сильно. Qwen 3.6 есть в двух вариантах, MoE и плотная(могу ошибаться, dense вроде). Та которая 35B это MoE, а та которая 27B плотная, вот она сильно тормозит при GPU Offloading. Более того в llama.cpp появился флаг который не по слоям переносит на CPU, а по экспертам, это еще больше поднимает перф, грубо говоря вы указываете только какое количеством VRAM нужно оставить свободным и оно само решит че делать. Плюс этот режим делает модель умнее, роутер внутри модели более корректно работает и более правильно выбирает экспертов. Я советую вам взять llama.cpp причем бранч с турбоквантом и запустить его, Кими или Грок подскажут какие параметры точно использовать. Если нужно напишите я найду что я использовал. И это ВАУ! На 4090 я выбил 80токен/сек, на 5080 16Gb, то же было много около 40-50, с достаточно сильным офлоадом и контекстом 130к. И модель стала умнее. Qwen 3.6 35B код пишет почти на уровне фронтир моделей, если ее правильно настроить.
у меня сейчас 60т\сек с полной загрузкой в VRAM, и квант кеша 8Q.
Еще узнал от Deepseek о моделях APEX. Посмотрите на гитхабе, там используется другой подход к квантизации МоЕ, который еще лучше чем unsloth, сниженный размер при том же качестве, и большей скорости.
сам еще не успел проверить.
ps. для себя я понял в любом случае - это жалкое подобие того что предлагает платный антропик или гатГПТ. Код на порядок хуже.
Если нужно что-то спросить есть куча чатов.
Я думаю пройдет еще годик, и мы сможем пользоваться этими моделями с 100токен\сек за счет оптимизаций ПО и самих моделей.
ЕГО ЗАКРЫЛИ 15 АПРЕЛЯ!
Вообще-то в прошлом году он вовсю уже был.
Ставил его летом, поюзал, но меня он не впечатлил. Да, 1.000 бесплатных запросов в день - это, конечно, приятно. Но качество действительно хромает.
Конечно, на простых задачах разница будет минимальна. Написать бота, сделать скрипт, отрефакторить функцию - справляется нормально. Но на сложной архитектуре, на больших кодовых базах, на задачах, где нужно удерживать много контекста сразу - качество, понятное дело, еще хромает. Qwen3.6-Plus хорошая модель, но Claude и Gemini в кодинге пока впереди.
категорически не согласен)..
использую на постоянной основе, как рабочий инструмент для "AI assisted" бэкенд разработки.
1. прекрасно справляется как инструмент для генерации кода (а не для чистого вайбкодинга как "целиком проект по спеке" -- тут, похоже да, обвязка клода впереди. но это и не нужно в реальной коммерческой разработке)
2. если используешь клод для фуллтайм разработки -- тебе не хватит 20уе. это маркетинговый обман давно всем понятный.
3. сама модель (качество отдельного ответа) ничуть не хуже в кодинге, чем клод. проверял многократно.
4. 1000 запросов реально хватает -- т.е. инструмент действительно бесплатный, а не условно бесплатный. это очень важно, т.к. подходит как "первый выбор" при внедрениях в командах ибо не требует дополнительного финансирования на всю команду разработки.
А как модель по сравнению с Kimi k2.5? Про неё читал, что чуть ли не Sonnet 4.6. В Windsurf её дают бесплатно. Я её пробовал в Windsurf, тупит хуже, чем GPT 5.2 Low.
Вот думаю, стоит ли пробовать Qwen...
Абсолютно уверенно заявляю, что под капотом Qwen Code coder-model это не Qwen3.6-Plus, а нечто гораздо более слабое. Можете сравнить с веб-версией или через платный API.
Как халява - ОК.
Для халявы можно ещё использовать бесплатные модели на openrouter (какие из реально работают, можно посмотреть на бесплатном free model router-е https://openrouter.ai/openrouter/free
Также есть бесплатные модели у OpenCodе (использую desktop версию, она удобнее терминала - во всех терминальных клиентах перенос строк при вводе по Ctrl+J, и нет выделения мышью, это же неудобно). Мне наиболее адекватной показалась MiniMax2.5 Free, она кажется даже менее глючной чем Qwen Code coder-model.
Также у российской платформы BotHub есть бесплатные модели (в https://bothub.chat/models введите в поиск free), но там нужно ввести минимальный депозит эквивалент 3$ и у вас будет 100 бесплатных вызовов free моделей ежедневно, что конечно же маловато, но хоть такое есть, и то хорошо.
P.S. Прошу пост не считать рекламой, но упомянутые компании могут принести мне деньги в любое удобное для них время, в любой валюте :)
OpenCodе (использую desktop версию, она удобнее терминала - во всех терминальных клиентах перенос строк при вводе по Ctrl+J, и нет выделения мышью, это же неудобно)
OpenCode TUI в iTerm2 прекрасен, выделение мышью работает хоть встроенное, хоть терминальное (с зажатым Option), перенос строк по Shift+Enter.
Мне в оно выдавало, что это qwen 3.5
Ну хоть кто-то проверил и написал что там через oauth не 3.6-plus )))
Подскажите, подключил в Opencode бесплатную (ну так написано) Google: Gemma 4 26B A4B (free)
Так эта нейронка поработал, а потом стала жаловаться на кол-во токенов. И баланс у меня теперь -16 центов
Что с этим делать ?
...The Cat API
Это сделало мой день. ^_^
Любопытно, насколько qwen-cli хорош в системном администрировании VPS? Всё никак руки не дойдут проверить. Возможно вы пробовали?
В CI, SSH и headless-средах OAuth не работает - браузер там не откроется. В этих случаях нужен API-ключ от Alibaba Cloud ModelStudio, который прописывается в ~/.qwen/settings.json вручную в секции modelProviders.
Наверное, можно авторизоваться дома, а потом закинуть конфиг с ключом oAuth на безголовый сервер.
Прямо сейчас делаю на нём инструмент. Иногда его нужно пинать братом: разжёвываниями от Qwen 3.6. Пример. Жаловался на ошибку БД, что это баг sqlx (мол, биндинг типов не работает). И что в новой версии не поправили (попросил насильно обновить зависимости). А тип строковый, база, я ему не поверил. Оказалось аффинность типов.
Теперь в QWEN.md стоит жёсткая напоминалка, что дока дороже форумов, спека дороже предположений и тому подобное. Настраивать надо, в общем, например, просить не идти на упрощения. Навыки пинать нужно, память. Субагенты работают не очень. Но в общем и целом очень даже инструмент.
В CI, SSH и headless-средах OAuth не работает - браузер там не откроется.
У вас даже на картинке “посетите по этой ссылке сайт”. Все прекрасно работает, надо только вручную открыть предложенную ссылку в браузере.
А без Node.js как-то можно обойтись?
Честно - пока очень уступает флагманам. От Claude Code или Cursor.
У Cursor есть своя модель? Это которая токенайзер от Kimi использует? Понимаю.
Мб имелась ввиду совершенно никому не известная OpenAI с совершенно неизвестной GPT 5.4?
Тут еще маленькая инди-компания Google не так давно выпустила модель Gemini, но это совсем надо долго в интернете копаться.
Ну вообще-то qwen уже задумался о прикрытии халявы https://3dnews.ru/1139793/qwen-zakrivaetsya-alibaba-sosredotochitsya-na-perevode-ii-na-kommercheskie-relsi
По работе заставили подрубить. Я прям удивлен, работает неожиданно хорошо. Помогло несколько багов мерзких решить. Слава китайским нейронкам:D
Эх, не хотел вайбкодингом занимать, но после статьи и коментов: желание попробовать, как минимум, появилось. Автор, даёшь туториал для начинающих )
Ах вот почему со вчерашнего дня Qwen чат такой отчаянно задумчивый. Хаброэффект!
А нет ли возможности эту бесплатную qwen подключить к openclaw, как основную для использования tools и прочего?
2026-04-13: Qwen OAuth free tier policy update: daily quota adjusted to 100 requests/day (from 1,000). The free tier will be discontinued on 2026-04-15. Please upgrade to Alibaba Cloud Coding Plan for continued service with higher quotas and more models.
Похоже, халява кончилась?
Могу ошибаться, но похоже что это OAuth ограничение, чтобы агентами на спамили.
https://www.alibabacloud.com/help/en/model-studio/qwen-code
вот здесь написано что 1000 в день
видимо да. Только что агент перестал работать, вижу это сообщение.
халявы больше не будет. С 15 числа теперь ток платно
Вайбкодинг без голосового набора - токены на ветер
Спасибо за статью. Уже ни раз думал попробовать, а тут такой шанс, да ещё и бесплатно. Все просто в пару команд буквально. Для больших проектов пока не уверен, а вот для вспомогательных утилит - очень даже не плохо.
Но есть пару вопросов - а есть ли реальная информация: где-то хранит он контекст между сессиями? Ну т.е. есть ли реально где-то история, как в обычном чате от qwen (ну т.е. буквально - можно где-то посмотреть историю работ/диалогов или нет). И ещё не увидел, где посмотреть и оценить, сколько из лимита "выбрано", а сколько осталось, это где-то доступно?
а можно его исполнителем в Openclaw подцепить?
Может есть ещё хорошие альтернативы, которые все же бесплатно? Как я понимаю, с 16 числа можно будет только оплачивать подписку за 50 долларов.
Есть. Сегодня поставил себе OpenCode и он предоставляет несколько бесплатных моделей на выбор. Что удивительно, даже регистрация не требуется.
Можешь пожалуйста дать туториал или ссылку по которой делал! просто я не могу найти хороший нормальный туториал, как установить?
Я немного почитал и сразу забегу вперёд: представленные там модели — временные, то есть через некоторое время они тоже перестанут быть бесплатными.
Сам OpenCode я устанавливал через Node.js (npm) — там буквально одна команда: npm i -g opencode-ai@latest.
Как-то качество дефолтной модели, конечно так себе. Код пишет без ошибок. Но в сравнении с Qwen решение куда более "тупое" получается.
Очень крутой агент. Я использую уже месяц и кайфую. Разницы с Gemini или codex не заметил. Задачи делаю как пирожки горячие. Но сегодня написали, что халява закончится через 2 дня
Я готов платить 50 баксов для доступ к квену, Кими и ГЛМ. Это отличное предложение, но как оплачивать алибабу? Я пока квест этот не разгадал
Я честно пробовал, зарегистрироваться ничего сложного, я прошёл всё.. почти... Не прошлось самое малое, подтверждение телефона по смс. ;)
Причем полно всяких мерзких посредников барыг и паразитов, продают х2, ненавижу. Значит способ оплаты есть, нужна китайская симка для регистрации.
Бесплатный сыр от QWEN вчера закончился
Ну штош. Раз бесплатно с квеном всё, то просто продолжу пользоваться курсором, хотя они тоже заразы даже платные лимиты режут :(
Благо под закрытие Qwen нам запилили Gemma4, и её можно использовать в CLI Opencode по google API. Или даже через Claude Code Router на Openrouter.
Сто стоп. Я попробовал по gemini cli по API, во первых нужно пускать терминал через прокси, во вторых там лимиты 2-3 правки в небольшой любительский проектик всё ;( Вообще не юзабельно получается. Или я что-то не так делаю?
Если использовать Gemini CLI, то нужно авторизоваться через логин, и тогда будет 1000 запросов в сутки. Через API получится 20.
Gemma 4 - это моделька попроще Gemini, и её нет в Gemini CLI, но она доступна по API с ограничением: 15 запросов в минуту. То есть можно считать, что ограничения нет. Бесплатно её можно пустить в Opencode CLI после простейшей настройки внутри графического терминала с вводом ключа. Также рекомендую прилампичить сразу MCP инструмент для экономии контекста https://github.com/mksglu/context-mode.
Если есть пополненный ранее аккаунт на Openrouter, тогда можно использовать бесплатно её же - Gemma 4, но через Claude Code ccr и иметь все его возможности.
в vscode работает? поставил расширение qwen code companion и когда пишу запрос ошибка 401
Нет не работает. 401 ошибка. Все обрезали. надо платить.
Я тоже пользовался Квином до 14 апреля. В основном как ревью кода после Сонета/Опуса и написание чего-то лёгкого. У Квина заметно другая логика построения порядка в коде. И делая Сонетом обратным ревью на ревью Квина, находятся ошибки, костыли и галюны, что в дальнейшем успешно самоисправляется.
Но увы лавочка уже закрылась.
С 15 апреля Alibaba прекращает бесплатный доступ к Qwen через Qwen Code
Халява кончилась, сэр))



Бесплатный вайбкодинг с Qwen Code — установка, возможности