Обновить

Комментарии 33

Я за последние три дня на бесплатных Qwen3.6 потратил 200 млн токенов. Мне Qwen3.6 понравился гораздо больше, чем Claude Sonnet-4.5. По моему ощущению, Qwen3.6 это игрок высшей лиги:)
Использовал Qwen3.6 через деcктопную версию OpenCode.




Прогонял тест конверсии идеи из С# кода в реализацию на другом фреймворке в Python

Тесты запускал в Roo Code под VS Code, сперва составить план, потом реализовать план.

Образец брал реализацию GPT5.4 и потом так-же с помощью GPT5.4 сравнивал результаты разных моделей. Получилось порядок по качеству. Cортировка по убыванию качества реализации и количеству ошибок в реализации. Ошибка это неправильная реализация алгоритмов расчета.

  • GPT5.4-Medium - Sonnet 4.6 - качество примерно на одинаковом уровне

  • GPT5-mini

  • Qwen3.5-122b Q4-КМ локально 12tok/sec

  • Qwen3-coder-next Q4-КМ локально 26tok/sec

  • Haiku 4.5

  • Qwen3-235b Q3-KS локально 7 tok/sec

  • gpt-oss-120b - локально 24 tok/sec

  • MiniMax-M2.5 Q3-KS локально 15tok/sec

  • Qwen3.6

В общем как-то так получилось, локальная машина i7-265K, 128Gb DDR5, RTX3090-1шт

Суммарно 1день на это потратил, но теперь хоть примерно понятно, что мне пдоходит, как резервный вариант.

Получилось Qwe3.5-122b оптимально, но не очень быстро, зато мультимодальная, либо если надо быстро то Qwen3-coder-next.

Ну или можно GPT5-mini гонять, она пока бесплатная в Github Copilot

Из семейства qwen для кода Qwen3.5-27B попробуй. ИМХО: значительно лучше работает, чем Qwen3-Coder-Next.

Да неплохо она работает, НО это DENSE модель и ей нужно больше ресурсов, поэтому у меня Qwen3.5-122B-A10B работает с такой же скоростью как и Qwen3.5-27B, но с большим контекстным окном. Так то эти модели почти на одном уровне по рейтингам https://www.reddit.com/r/LocalLLaMA/comments/1rlckan/qwen3_vs_qwen35_performance/#lightbox

Плюсом я еще нашел правильные параметры для запуска моделей в llama-cpp, чтобы она сама считала, сколько по максимуму можно засунуть в видеокарту и т.д.

И сейчас получаю 20ток/сек для Qwen3.5-122B-A10B Q5_K_S от bartowski, что просто афигенно для одной RTX 3090

Думаю вторую 3090 взять, чтобы с нормальной скоростью запускать Qwen3.5-397B, сейчас получается запускать только IQ3_XXS модель с 8-10ток/сек, что не очень.

Анализ и код пишут на опус 4.6, на сонет запускают субагентов для более простых задач типа анализ логов, запуск сценариев.

А как получить 200М токенов бесплатно, пусть и за 3 дня? У меня его "задора" хватает ненадолго (т.е. совсем ненадолго)...

На openrouter он в подарок(free), насколько никто не знает, но там его сейчас просто заливают токенами!)

Я может чего-то не понял, но в чем смысл статьи? Это прям какая-то статья капитана очевидность - никаких сравнений нет, просто подключаем бесплатную LLM, которая "о чудо" пишет код...

За опубликованную статьи Хабр автоматически увеличивает "карму" на 1 единицу:)

Согласен, глубокого исследования здесь нет. Статья больше для новичков: что установить, как подключить бесплатную LLM и попробовать ее без подписки. И потом уже решиться нужно покупать подписку или нет.

modelscope
500 звонков на модель в день, до 2000 звонков
Жаль, что Alibaba Cloud ужесточила высокую модель

В данной статье не идет речь про работу через API, речь про работу через qwen.portal и Qwen Code через OAuth и Alibaba Cloud в этом процессе не учавствует.

500 звонков на модель в день

Вы про "500 calls to model per day"? Не, я понимаю боты, но вот @so_linrun прямо жжет, и остальные его комменты почитать - там просто китайская маленькая модель.

Интересно, что примерно в это же время кило сломался, на гитхабе повалили ишью с проблемами и пометкой bug.... Совпадение?....

Возможно, но я думаю проблемы скорее вызваны большим обновлением и новой версией 7.*, я все проверял на 5.11.0. На нужную версию можно откатиться в VS Code.

Мой совет из опыта, даже не стоит пробовать кодить на этих моделях, если только чисто "время потратить".

Не знаю в чём разница, но в Visual Code можно установить Qwen Code и просто авторизоваться и можно использовать последнюю на данный момент модель без ограничений, ограничения только по контексту.

Cогласен с вами. Просто у Qwen Code только модели от Qwen. У таких решений как Kilo Code, Open Code бывают бесплатные модели от многих компаний, что иногда полезно

Да, но пока в сравнении с остальными бесплатными которые там есть, то Qwen их опережает, также можно добавить российские расширения GigaChat и от яндекса SourceCraft Code Assistant

Килокод перестал работать с квен код сегодня, после выхода 3.6 версии, выдает ошибку 400 неверный запрос. Перепробовал целый список разных моделей, ничего не получается.

Спасибо, перепроверил, действительно выдает ошибку 400. Добавил UPD в статью.

Вы хотели сказать что заблокирован килокод провайдер, а не сам килокод. Пользуюсь килокодом в PHPStorm 6+ месяцев + Qwen Code без каких либо проблем и трехбуквенных решений.

Не знаю что именно заблокировано, но именно в VS Code через расширение он не подключается к серверу и без разницы какую модель нейросети выбрать

Ну так надо выбрать другого провайдера, а не килокод провайдер. В настройках там масса провайдеров, и их нужно настраивать.https://c2n.me/4nRqCtL

В Windsurf бесплатно и безлимитно с недавних пор дают Kimi k2.5. Где-то читал, что она якобы не хуже Sonnet 4.5, по моему опыту она неплоха, но даже GPT 5.2 Low, доступная в Windsurf Free с ограниченной квотой, её уделывает. Думал купить там подписку, но пока был на триале, они ввели дебильную систему дневных и недельных квот для платных моделей, которые слишком быстро заканчивались даже на GPT 5.4, не говоря уже о Claude, который жрёт квоту как не в себя.

Ещё Codex на бесплатном тарифе есть, но это временно. А если подключить зарубежную карту (в РФ я завёл виртуальную по цене месяца подписки), то дают триал Plus на месяц с удвоенной квотой - временно, как они утверждают на сайте. Но даже удвоенную недельную квоту я потратил за два дня, сидя по 12 часов в день и документируя, покрывая тестами и добавляя инфраструктурные фичи в два моих проекта.

Мне интересно, почему все везде пишут только про Claude Code? Я его не пробовал, так как говорят, что там квоты улетают в миг, и нужно платить кучу денег, а у меня хороший опыт с Codex, а бесплатный Windsurf помогает дотянуть до восстановления недельной квоты Codex'а, за которую многое успеваю сделать и претензий к качеству не имею.

Сейчас в kilo code лимит в qwen free совсем маленький по ощущениям…

Кстати, кто-нибудь пользовался deepseek coder? Какие впечатления?

Кстати, кто-нибудь пользовался deepseek coder? Какие впечатления?

Сильно устарел. Сейчас для кода нужна поддержка агентного режима и вызова инструментов - то есть нужно что-то, что выходило в последние пол года, или даже пару месяцев.

2 недели назад вышла Gemma4, в размере 31B годная, в размере 26B-A4B слабая, но знает много анекдотов. Но модель 31B что это Dense модель, то есть должна целиком влезать в VRAM для нормальной скорости, в то время как MoE модель можно распределить между VRAM и RAM в cmoe режиме (не обычная выгрузка слоев ngl, cmoe работает по другому) и получить хорошую скоростью, этот режим по умолчанию включен в llama.cpp, но его нет в ollama.

Вчера вышла Qwen3.6-35B-A3B, и это хороший уровень для такого размера. Даже квантованная Qwen3.6-35B-A3B-UD-Q2_K_XL работая с opencode или qwen code не теряет контекст на 128к, но лучше, конечно, UD-Q4_K_XL.

Для пример попросил UD-Q2_K_XL сделать реплику Win11, 1 запрос, результат 40к токенов. На 4060 16гб скорость 60 t/s. Всё двигается, шевелится, плавное, анимированное:

Qwen3.6-35B-A3B-UD-Q2_K_XL, 4060 16гб, 60 t/s
Qwen3.6-35B-A3B-UD-Q2_K_XL, 4060 16гб, 60 t/s

Спасибо за ответ. Очень удивлен, что 4060 выдает 60 токенов в секунду. Rtx 4060 продается по оч доступной цене. Но мне хочется взять карту помощнее.

Вы упомянули, что результат был 40к токенов. Подозрительно мало. Это точно все токены? Входит ли в это число рассуждения, токены из промптов? Ответ был просто код или еще болтовня на русском языке?

пробовал обносить Qwen Code и после обновления вышло сообщение, что с 15 апреля Qwen закрыл бесплатные доступы по API...

Куда переходить порекомендуете?)

Честно, прямо сейчас у меня ответа нет, я бы посмотрел в сторону OmniRoute, и подключил через него, как можно больше провайдеров с бесплатными лимитами

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации