Комментарии 33
Я за последние три дня на бесплатных Qwen3.6 потратил 200 млн токенов. Мне Qwen3.6 понравился гораздо больше, чем Claude Sonnet-4.5. По моему ощущению, Qwen3.6 это игрок высшей лиги:)
Использовал Qwen3.6 через деcктопную версию OpenCode.

Прогонял тест конверсии идеи из С# кода в реализацию на другом фреймворке в Python
Тесты запускал в Roo Code под VS Code, сперва составить план, потом реализовать план.
Образец брал реализацию GPT5.4 и потом так-же с помощью GPT5.4 сравнивал результаты разных моделей. Получилось порядок по качеству. Cортировка по убыванию качества реализации и количеству ошибок в реализации. Ошибка это неправильная реализация алгоритмов расчета.
GPT5.4-Medium - Sonnet 4.6 - качество примерно на одинаковом уровне
GPT5-mini
Qwen3.5-122b Q4-КМ локально 12tok/sec
Qwen3-coder-next Q4-КМ локально 26tok/sec
Haiku 4.5
Qwen3-235b Q3-KS локально 7 tok/sec
gpt-oss-120b - локально 24 tok/sec
MiniMax-M2.5 Q3-KS локально 15tok/sec
Qwen3.6
В общем как-то так получилось, локальная машина i7-265K, 128Gb DDR5, RTX3090-1шт
Суммарно 1день на это потратил, но теперь хоть примерно понятно, что мне пдоходит, как резервный вариант.
Получилось Qwe3.5-122b оптимально, но не очень быстро, зато мультимодальная, либо если надо быстро то Qwen3-coder-next.
Ну или можно GPT5-mini гонять, она пока бесплатная в Github Copilot
Из семейства qwen для кода Qwen3.5-27B попробуй. ИМХО: значительно лучше работает, чем Qwen3-Coder-Next.
Да неплохо она работает, НО это DENSE модель и ей нужно больше ресурсов, поэтому у меня Qwen3.5-122B-A10B работает с такой же скоростью как и Qwen3.5-27B, но с большим контекстным окном. Так то эти модели почти на одном уровне по рейтингам https://www.reddit.com/r/LocalLLaMA/comments/1rlckan/qwen3_vs_qwen35_performance/#lightbox
Плюсом я еще нашел правильные параметры для запуска моделей в llama-cpp, чтобы она сама считала, сколько по максимуму можно засунуть в видеокарту и т.д.
И сейчас получаю 20ток/сек для Qwen3.5-122B-A10B Q5_K_S от bartowski, что просто афигенно для одной RTX 3090
Думаю вторую 3090 взять, чтобы с нормальной скоростью запускать Qwen3.5-397B, сейчас получается запускать только IQ3_XXS модель с 8-10ток/сек, что не очень.
Анализ и код пишут на опус 4.6, на сонет запускают субагентов для более простых задач типа анализ логов, запуск сценариев.
А как получить 200М токенов бесплатно, пусть и за 3 дня? У меня его "задора" хватает ненадолго (т.е. совсем ненадолго)...
Я может чего-то не понял, но в чем смысл статьи? Это прям какая-то статья капитана очевидность - никаких сравнений нет, просто подключаем бесплатную LLM, которая "о чудо" пишет код...
modelscope
500 звонков на модель в день, до 2000 звонков
Жаль, что Alibaba Cloud ужесточила высокую модель
В данной статье не идет речь про работу через API, речь про работу через qwen.portal и Qwen Code через OAuth и Alibaba Cloud в этом процессе не учавствует.
500 звонков на модель в день
Вы про "500 calls to model per day"? Не, я понимаю боты, но вот @so_linrun прямо жжет, и остальные его комменты почитать - там просто китайская маленькая модель.
Интересно, что примерно в это же время кило сломался, на гитхабе повалили ишью с проблемами и пометкой bug.... Совпадение?....
Мой совет из опыта, даже не стоит пробовать кодить на этих моделях, если только чисто "время потратить".
Не знаю в чём разница, но в Visual Code можно установить Qwen Code и просто авторизоваться и можно использовать последнюю на данный момент модель без ограничений, ограничения только по контексту.
Cогласен с вами. Просто у Qwen Code только модели от Qwen. У таких решений как Kilo Code, Open Code бывают бесплатные модели от многих компаний, что иногда полезно
Килокод перестал работать с квен код сегодня, после выхода 3.6 версии, выдает ошибку 400 неверный запрос. Перепробовал целый список разных моделей, ничего не получается.
И ещё Openrouter часто теряет связь, а Kilo Code вообще заблокирован
Вы хотели сказать что заблокирован килокод провайдер, а не сам килокод. Пользуюсь килокодом в PHPStorm 6+ месяцев + Qwen Code без каких либо проблем и трехбуквенных решений.
Не знаю что именно заблокировано, но именно в VS Code через расширение он не подключается к серверу и без разницы какую модель нейросети выбрать
Ну так надо выбрать другого провайдера, а не килокод провайдер. В настройках там масса провайдеров, и их нужно настраивать.https://c2n.me/4nRqCtL
В Windsurf бесплатно и безлимитно с недавних пор дают Kimi k2.5. Где-то читал, что она якобы не хуже Sonnet 4.5, по моему опыту она неплоха, но даже GPT 5.2 Low, доступная в Windsurf Free с ограниченной квотой, её уделывает. Думал купить там подписку, но пока был на триале, они ввели дебильную систему дневных и недельных квот для платных моделей, которые слишком быстро заканчивались даже на GPT 5.4, не говоря уже о Claude, который жрёт квоту как не в себя.
Ещё Codex на бесплатном тарифе есть, но это временно. А если подключить зарубежную карту (в РФ я завёл виртуальную по цене месяца подписки), то дают триал Plus на месяц с удвоенной квотой - временно, как они утверждают на сайте. Но даже удвоенную недельную квоту я потратил за два дня, сидя по 12 часов в день и документируя, покрывая тестами и добавляя инфраструктурные фичи в два моих проекта.
Мне интересно, почему все везде пишут только про Claude Code? Я его не пробовал, так как говорят, что там квоты улетают в миг, и нужно платить кучу денег, а у меня хороший опыт с Codex, а бесплатный Windsurf помогает дотянуть до восстановления недельной квоты Codex'а, за которую многое успеваю сделать и претензий к качеству не имею.
Сейчас в kilo code лимит в qwen free совсем маленький по ощущениям…
Кстати, кто-нибудь пользовался deepseek coder? Какие впечатления?
Кстати, кто-нибудь пользовался deepseek coder? Какие впечатления?
Сильно устарел. Сейчас для кода нужна поддержка агентного режима и вызова инструментов - то есть нужно что-то, что выходило в последние пол года, или даже пару месяцев.
2 недели назад вышла Gemma4, в размере 31B годная, в размере 26B-A4B слабая, но знает много анекдотов. Но модель 31B что это Dense модель, то есть должна целиком влезать в VRAM для нормальной скорости, в то время как MoE модель можно распределить между VRAM и RAM в cmoe режиме (не обычная выгрузка слоев ngl, cmoe работает по другому) и получить хорошую скоростью, этот режим по умолчанию включен в llama.cpp, но его нет в ollama.
Вчера вышла Qwen3.6-35B-A3B, и это хороший уровень для такого размера. Даже квантованная Qwen3.6-35B-A3B-UD-Q2_K_XL работая с opencode или qwen code не теряет контекст на 128к, но лучше, конечно, UD-Q4_K_XL.
Для пример попросил UD-Q2_K_XL сделать реплику Win11, 1 запрос, результат 40к токенов. На 4060 16гб скорость 60 t/s. Всё двигается, шевелится, плавное, анимированное:

Спасибо за ответ. Очень удивлен, что 4060 выдает 60 токенов в секунду. Rtx 4060 продается по оч доступной цене. Но мне хочется взять карту помощнее.
Вы упомянули, что результат был 40к токенов. Подозрительно мало. Это точно все токены? Входит ли в это число рассуждения, токены из промптов? Ответ был просто код или еще болтовня на русском языке?
пробовал обносить Qwen Code и после обновления вышло сообщение, что с 15 апреля Qwen закрыл бесплатные доступы по API...
Куда переходить порекомендуете?)
Честно, прямо сейчас у меня ответа нет, я бы посмотрел в сторону OmniRoute, и подключил через него, как можно больше провайдеров с бесплатными лимитами

Пробуем использовать бесплатные ИИ для написания кода