Comments 32
Ждём модель от OzonCoder с поддержкой российского ИНН
До ollama пока не добралось :(
Размер модели 480B-A35B, размер контекста нативные 256к и 1м через Yarn. Поддерживает Agentic Coding, можно использовать вместе с Cline или Roo Code.
Рекомендуемые настройки: temperature=0.7, top_p=0.8, top_k=20, repetition_penalty=1.05
Бенчмарки от разработчиков:

gguf для llama.cpp: https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF
gguf для ik_llama: https://huggingface.co/ubergarm/Qwen3-Coder-480B-A35B-Instruct-GGUF
Попробовать онлайн (без регистрации, но быстро наступят лимиты): https://chat.qwen.ai/
Или (тут только html/js разработка): https://huggingface.co/spaces/Qwen/Qwen3-Coder-WebDev
510Гб! Это на чём её запускать-то???
Есть урезанные от энтузиастов
https://ollama.com/ArturBieniek/qwen3-coder
https://ollama.com/freehuntx/qwen3-coder
https://ollama.com/deploy1001/Qwen-3B-Coder
Надеюсь скоро "официальные" выложат.
Размер модели 480B-A35B
510Гб! Это на чём её запускать-то???
С этим с недавних пор как раз меньше проблем. Вот запустил на домашнем ПК:


Месяц назад я писал статью о том, как запускать такие большие модели на домашнем железе: Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к).
Сейчас это работает даже получше, так как в ik_llama недавно были разработаны новые кванты, которые весят меньше, а работают лучше. По ссылке на gguf ik_llama для этой новой модели они уже используются.

Мне он вот такое выдал
А какой квант запускали? И если не секрет, какой скорости удалось добиться?
А какой квант запускали? И если не секрет, какой скорости удалось добиться?
Запускал IQ3_K (216гб), он не влез в 188гб ram памяти, поэтому частично запускался с ssd. ub/b 4096 чтобы повысить скорость PP. Так как это не размышляющая модель, то скорость tg примерно в 5 t/s будет терпимой, а скорость pp выше 100 t/s нормальной, такая позволит обрабатывать длинный контекст достаточно быстро.
У IQ3_K замер PPL всего на 1.6% хуже, чем у Q8_0 кванта (5.1808 против 5.0975).
Скорость pp: 100 t/s, tg: 4 t/s.

Можно взять квант, чтобы целиком влезал в память, например, IQ2_KS (144гб).
У IQ2_KS замер PPL на 11% хуже (5.6578 против 5.0975).
Скорость pp: 350 t/s, tg: 6 t/s

IQ2_KS хоть и просел по качеству, но с заданием справляется. Можно даже усложнить задачу, с чем у многих моделей уже сложности.
Напиши на js качественный эффект как в матрице, только используй смайлы эмодзи. Сделай так, чтобы эффект было видно только в круге по центру. В одном index.html файле.

Интересно то, что Qwen3-Coder на официальном сайте не справляется с этим заданием, как и у комментатора ваше. Но в итоге с 3 раза справился, так что если кванты пишут плохой код, это не факт, что проблема именно квантов, может это модель такая.

Ого, 5t\s c подгрузкой с диска? Я же правильно помню сетап, 192RAM+4090+4060? SSD с которого подгружалось это nvme?
i7-14700 + 192гб (или 188 гиб) DDR5 4800 MT/s + 4090 + nvme PM9A1. 4060 не добавлял, так как не хотелось подбирать перенос тензоров. В общем запускал с самой ленивой -ot exps=CPU
командой.
Активных параметров у модели 35B, вес кванта 216 гиб + контекст, в итоге чтение с nvme не такое большое, как по объему так и по скорости, поэтому просадка tg не такая заметная, но всё равно из-за этого скорость получилась ближе к 4 t/s, чем к 5 t/s.
Вот эта разница между гб и гиб как раз не позволяет этот квант целиком вместить даже с учетом разгрузки, поэтому добавление 4060 не сильно поможет. Пришлось снизить ub/b до 3072, чтобы выгрузить лишний слой:

Ещё когда вышла Kimi K2 размером 1026B-A32B, запускал на тот момент самый маленький квант Kimi-K2-Instruct-UD-IQ1_S, он весит 262гб, это уже ощутимо не влезает в память и необходимость постоянного чтения с nvme уже по полной просаживает скорость:

Сейчас уже добавили версию smol-IQ1_KT размером 219гб и потерей по PPL в 30%, не запускал, но думаю скорость будет примерно такой же ~4 t/s, как и у Qwen3-Coder.
А каковы лимиты?
Интересно, можно ли будет через опенроутер в copilot завести..
На openrouter бесплатную версию уже добавили: https://openrouter.ai/qwen/qwen3-coder:free
Опять какой-то маркетинговый булшит от людей бесконечно далеких от темы. Причем здесь какой-то древний GPT-4?
Самое главное: эта новая модель меньше чем даже DeepSeek R1, при этом не reasoning, а кодит лучше тем reasoning Gemini 2.5 Pro. Далее, эти китайские тролли форкнули гугловский Gemini CLI, заменили модель на свою и обозвали qwen-code, народ тестит и утверждает что оно работает на уровне Claude Sonnet4, только околобесплатно, а не тонны денег, как того требует Соннет.
11 июля вышла опенсорсная Kimi K2, перед ее выходом Сэм Альтман надув щеки рассказывал как OpenAI скоро релизнет свою опенсорсную модель, которая будет лучше всех опенсорсных, а как вышла Kimi K2, на следующий день, 12 июля он сразу сдулся и запричитал, "Ой, мне надо срочно потестировать нашу модель на безопастность", теперь вышла эта Qwen3-Coder - первая в линейке Qwen3 кодеров (обещают и другие скоро) и уже лучше даже чем Kimi K2, не смотря на то, что в 2 раза меньше. Походу теперь Альтман застрял с тестированием безопастности совсем надолго.
На своем сайте в чате он кодит, мягко скажем не очень. Субъективно конечно но что есть.
В тулзах типа aider в бенчмарках его еще нет, но есть kimi k2 и он показывает результат далекий от топов.
Можно взять гугловский gemini cli, взять qwen-code, и claude-code, всем трем подключить MCP context7 для свежей документации, дать одну и ту-же задачу всем трем и сравнить. С claude-code сам, честно, не сравнивал, но gemini-cli хуже чем qwen-code.
А что насчет RooCode? Удобнее, но слабее cli тулзов?
Хочу понять, насколько целесообразно переходить в CLI (Aider или тот же qwen-code) для сложных задач при использовании той же модели, а плагины в VS Code юзать для относительно мелких задач.
Не зря же в RooCode режим оркестрации вводили, чтобы он сам на мелкие задачи разбюивал. Или не поможет, лучше сразу в cli?
Я cli только для теста использовал, пока использовать для работы не собираюсь, тем более что прямо сейчас Qwen3-coder еще, как ни странно, в программировании дорогой из-за дорогих input токенов, которых для кодинга улетает много. Подожду неделю когда у других провайдеров появится в количестве, в теории он должен быть дешевле DeepSeek из-за того что меньше параметров.
Del
я проверил на своем старом посте из Stack Overflow с ошибкой rust borrowed value issue value borrowed value does not live long enough и он смог решить проблему
Люди пишут про лимиты, каковы они в этом qwen3 coder?
Теперь у нас есть даже ИИ с AliExpress
Ждём рассуждающую и её кванты.
Alibaba выпустила «самую мощную» ИИ-модель для программирования — Qwen3-Coder