mefdayy Jul 23 at 14:28

Alibaba выпустила «самую мощную» ИИ-модель для программирования — Qwen3-Coder

1 min

24K

BotHub corporate blogArtificial IntelligenceMachine learning *

+18

Comments 32

Nikollor48 Jul 23 at 16:00

Ждём модель от OzonCoder с поддержкой российского ИНН

isden Jul 23 at 16:57

До ollama пока не добралось :(

Shannon Jul 23 at 17:07

Размер модели 480B-A35B, размер контекста нативные 256к и 1м через Yarn. Поддерживает Agentic Coding, можно использовать вместе с Cline или Roo Code.
Рекомендуемые настройки: temperature=0.7, top_p=0.8, top_k=20, repetition_penalty=1.05

Бенчмарки от разработчиков:

gguf для llama.cpp: https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF
gguf для ik_llama: https://huggingface.co/ubergarm/Qwen3-Coder-480B-A35B-Instruct-GGUF

Попробовать онлайн (без регистрации, но быстро наступят лимиты): https://chat.qwen.ai/
Или (тут только html/js разработка): https://huggingface.co/spaces/Qwen/Qwen3-Coder-WebDev

Revertis Jul 23 at 19:02

510Гб! Это на чём её запускать-то???

isden Jul 23 at 19:47

Есть урезанные от энтузиастов

https://ollama.com/ArturBieniek/qwen3-coder

https://ollama.com/freehuntx/qwen3-coder

https://ollama.com/deploy1001/Qwen-3B-Coder

Надеюсь скоро "официальные" выложат.

smilingcheater Jul 24 at 03:56

По вашим ссылкам - модели выложены несколько недель назад, раньше релиза Qwen3. Как такое может быть?

Hu3yP7 Jul 24 at 08:30

ИИ создало машину времени

isden Jul 24 at 12:24

Интересно. Каюсь, не посмотрел дату, сходу это нашлось.

jetnet Jul 23 at 21:04

https://www.youtube.com/watch?v=JSDf0IGqwag

Shannon Jul 23 at 22:46

Размер модели 480B-A35B
510Гб! Это на чём её запускать-то???

С этим с недавних пор как раз меньше проблем. Вот запустил на домашнем ПК:

Месяц назад я писал статью о том, как запускать такие большие модели на домашнем железе: Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к).

Сейчас это работает даже получше, так как в ik_llama недавно были разработаны новые кванты, которые весят меньше, а работают лучше. По ссылке на gguf ik_llama для этой новой модели они уже используются.

solarize Jul 24 at 06:40

Мне он вот такое выдал

dv0ich Jul 24 at 06:53

Сук 😂 Бюджетная Матрица, так сказать XD

molnij Jul 24 at 08:23

А какой квант запускали? И если не секрет, какой скорости удалось добиться?

Shannon Jul 24 at 12:35

А какой квант запускали? И если не секрет, какой скорости удалось добиться?

Запускал IQ3_K (216гб), он не влез в 188гб ram памяти, поэтому частично запускался с ssd. ub/b 4096 чтобы повысить скорость PP. Так как это не размышляющая модель, то скорость tg примерно в 5 t/s будет терпимой, а скорость pp выше 100 t/s нормальной, такая позволит обрабатывать длинный контекст достаточно быстро.

У IQ3_K замер PPL всего на 1.6% хуже, чем у Q8_0 кванта (5.1808 против 5.0975).
Скорость pp: 100 t/s, tg: 4 t/s.

Можно взять квант, чтобы целиком влезал в память, например, IQ2_KS (144гб).
У IQ2_KS замер PPL на 11% хуже (5.6578 против 5.0975).
Скорость pp: 350 t/s, tg: 6 t/s

IQ2_KS хоть и просел по качеству, но с заданием справляется. Можно даже усложнить задачу, с чем у многих моделей уже сложности.
Напиши на js качественный эффект как в матрице, только используй смайлы эмодзи. Сделай так, чтобы эффект было видно только в круге по центру. В одном index.html файле.

Интересно то, что Qwen3-Coder на официальном сайте не справляется с этим заданием, как и у комментатора ваше. Но в итоге с 3 раза справился, так что если кванты пишут плохой код, это не факт, что проблема именно квантов, может это модель такая.

molnij Jul 25 at 03:28

Ого, 5t\s c подгрузкой с диска? Я же правильно помню сетап, 192RAM+4090+4060? SSD с которого подгружалось это nvme?

Shannon Jul 25 at 11:33

i7-14700 + 192гб (или 188 гиб) DDR5 4800 MT/s + 4090 + nvme PM9A1. 4060 не добавлял, так как не хотелось подбирать перенос тензоров. В общем запускал с самой ленивой -ot exps=CPU командой.

Активных параметров у модели 35B, вес кванта 216 гиб + контекст, в итоге чтение с nvme не такое большое, как по объему так и по скорости, поэтому просадка tg не такая заметная, но всё равно из-за этого скорость получилась ближе к 4 t/s, чем к 5 t/s.

Вот эта разница между гб и гиб как раз не позволяет этот квант целиком вместить даже с учетом разгрузки, поэтому добавление 4060 не сильно поможет. Пришлось снизить ub/b до 3072, чтобы выгрузить лишний слой:

Ещё когда вышла Kimi K2 размером 1026B-A32B, запускал на тот момент самый маленький квант Kimi-K2-Instruct-UD-IQ1_S, он весит 262гб, это уже ощутимо не влезает в память и необходимость постоянного чтения с nvme уже по полной просаживает скорость:

Сейчас уже добавили версию smol-IQ1_KT размером 219гб и потерей по PPL в 30%, не запускал, но думаю скорость будет примерно такой же ~4 t/s, как и у Qwen3-Coder.

BigWolf1 Jul 24 at 14:39

А каковы лимиты?

Jacov911 Jul 24 at 16:00

Интересно, можно ли будет через опенроутер в copilot завести..

Shannon Jul 24 at 17:46

На openrouter бесплатную версию уже добавили: https://openrouter.ai/qwen/qwen3-coder:free

Politura Jul 24 at 02:25

Опять какой-то маркетинговый булшит от людей бесконечно далеких от темы. Причем здесь какой-то древний GPT-4?

Самое главное: эта новая модель меньше чем даже DeepSeek R1, при этом не reasoning, а кодит лучше тем reasoning Gemini 2.5 Pro. Далее, эти китайские тролли форкнули гугловский Gemini CLI, заменили модель на свою и обозвали qwen-code, народ тестит и утверждает что оно работает на уровне Claude Sonnet4, только околобесплатно, а не тонны денег, как того требует Соннет.

11 июля вышла опенсорсная Kimi K2, перед ее выходом Сэм Альтман надув щеки рассказывал как OpenAI скоро релизнет свою опенсорсную модель, которая будет лучше всех опенсорсных, а как вышла Kimi K2, на следующий день, 12 июля он сразу сдулся и запричитал, "Ой, мне надо срочно потестировать нашу модель на безопастность", теперь вышла эта Qwen3-Coder - первая в линейке Qwen3 кодеров (обещают и другие скоро) и уже лучше даже чем Kimi K2, не смотря на то, что в 2 раза меньше. Походу теперь Альтман застрял с тестированием безопастности совсем надолго.

pol_pot Jul 24 at 03:33

На своем сайте в чате он кодит, мягко скажем не очень. Субъективно конечно но что есть.

В тулзах типа aider в бенчмарках его еще нет, но есть kimi k2 и он показывает результат далекий от топов.

Politura Jul 24 at 04:08

Можно взять гугловский gemini cli, взять qwen-code, и claude-code, всем трем подключить MCP context7 для свежей документации, дать одну и ту-же задачу всем трем и сравнить. С claude-code сам, честно, не сравнивал, но gemini-cli хуже чем qwen-code.

Antra Jul 24 at 07:45

А что насчет RooCode? Удобнее, но слабее cli тулзов?

Хочу понять, насколько целесообразно переходить в CLI (Aider или тот же qwen-code) для сложных задач при использовании той же модели, а плагины в VS Code юзать для относительно мелких задач.

Не зря же в RooCode режим оркестрации вводили, чтобы он сам на мелкие задачи разбюивал. Или не поможет, лучше сразу в cli?

Politura Jul 24 at 15:57

Я cli только для теста использовал, пока использовать для работы не собираюсь, тем более что прямо сейчас Qwen3-coder еще, как ни странно, в программировании дорогой из-за дорогих input токенов, которых для кодинга улетает много. Подожду неделю когда у других провайдеров появится в количестве, в теории он должен быть дешевле DeepSeek из-за того что меньше параметров.

Antra Jul 24 at 16:49

Да я вот что-то не понял.

Оригинальный вроде как $1.5 1M Input.

OpenRouter вчера был $1 (дороже дипсика, но не катастрофически).

А сейчас:

Для сравнения

arantar Jul 24 at 12:16

Del

B1234 Jul 24 at 09:15

я проверил на своем старом посте из Stack Overflow с ошибкой rust borrowed value issue value borrowed value does not live long enough и он смог решить проблему