Search
Write a publication
Pull to refresh

Comments 32

Ждём модель от OzonCoder с поддержкой российского ИНН

Размер модели 480B-A35B, размер контекста нативные 256к и 1м через Yarn. Поддерживает Agentic Coding, можно использовать вместе с Cline или Roo Code.
Рекомендуемые настройки: temperature=0.7, top_p=0.8, top_k=20, repetition_penalty=1.05

Бенчмарки от разработчиков:

gguf для llama.cpp: https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF
gguf для ik_llama: https://huggingface.co/ubergarm/Qwen3-Coder-480B-A35B-Instruct-GGUF

Попробовать онлайн (без регистрации, но быстро наступят лимиты): https://chat.qwen.ai/
Или (тут только html/js разработка): https://huggingface.co/spaces/Qwen/Qwen3-Coder-WebDev

510Гб! Это на чём её запускать-то???

По вашим ссылкам - модели выложены несколько недель назад, раньше релиза Qwen3. Как такое может быть?

ИИ создало машину времени

Интересно. Каюсь, не посмотрел дату, сходу это нашлось.

Размер модели 480B-A35B
510Гб! Это на чём её запускать-то???

С этим с недавних пор как раз меньше проблем. Вот запустил на домашнем ПК:

Qwen3-Coder-480B-A35B запущен локально
Qwen3-Coder-480B-A35B запущен локально
Результат рабочий
Результат рабочий

Месяц назад я писал статью о том, как запускать такие большие модели на домашнем железе: Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к).

Сейчас это работает даже получше, так как в ik_llama недавно были разработаны новые кванты, которые весят меньше, а работают лучше. По ссылке на gguf ik_llama для этой новой модели они уже используются.

Мне он вот такое выдал

Сук 😂 Бюджетная Матрица, так сказать XD

А какой квант запускали? И если не секрет, какой скорости удалось добиться?

А какой квант запускали? И если не секрет, какой скорости удалось добиться?

Запускал IQ3_K (216гб), он не влез в 188гб ram памяти, поэтому частично запускался с ssd. ub/b 4096 чтобы повысить скорость PP. Так как это не размышляющая модель, то скорость tg примерно в 5 t/s будет терпимой, а скорость pp выше 100 t/s нормальной, такая позволит обрабатывать длинный контекст достаточно быстро.

У IQ3_K замер PPL всего на 1.6% хуже, чем у Q8_0 кванта (5.1808 против 5.0975).
Скорость pp: 100 t/s, tg: 4 t/s.

Qwen3-Coder-480B-A35B IQ3_K
Qwen3-Coder-480B-A35B IQ3_K

Можно взять квант, чтобы целиком влезал в память, например, IQ2_KS (144гб).
У IQ2_KS замер PPL на 11% хуже (5.6578 против 5.0975).
Скорость pp: 350 t/s, tg: 6 t/s

Qwen3-Coder-480B-A35B IQ2_KS
Qwen3-Coder-480B-A35B IQ2_KS

IQ2_KS хоть и просел по качеству, но с заданием справляется. Можно даже усложнить задачу, с чем у многих моделей уже сложности.
Напиши на js качественный эффект как в матрице, только используй смайлы эмодзи. Сделай так, чтобы эффект было видно только в круге по центру. В одном index.html файле.

Интересно то, что Qwen3-Coder на официальном сайте не справляется с этим заданием, как и у комментатора ваше. Но в итоге с 3 раза справился, так что если кванты пишут плохой код, это не факт, что проблема именно квантов, может это модель такая.

Ого, 5t\s c подгрузкой с диска? Я же правильно помню сетап, 192RAM+4090+4060? SSD с которого подгружалось это nvme?

i7-14700 + 192гб (или 188 гиб) DDR5 4800 MT/s + 4090 + nvme PM9A1. 4060 не добавлял, так как не хотелось подбирать перенос тензоров. В общем запускал с самой ленивой -ot exps=CPU командой.

Активных параметров у модели 35B, вес кванта 216 гиб + контекст, в итоге чтение с nvme не такое большое, как по объему так и по скорости, поэтому просадка tg не такая заметная, но всё равно из-за этого скорость получилась ближе к 4 t/s, чем к 5 t/s.

Вот эта разница между гб и гиб как раз не позволяет этот квант целиком вместить даже с учетом разгрузки, поэтому добавление 4060 не сильно поможет. Пришлось снизить ub/b до 3072, чтобы выгрузить лишний слой:

Qwen3-Coder-480B-A35B IQ3_K +4060
Qwen3-Coder-480B-A35B IQ3_K +4060

Ещё когда вышла Kimi K2 размером 1026B-A32B, запускал на тот момент самый маленький квант Kimi-K2-Instruct-UD-IQ1_S, он весит 262гб, это уже ощутимо не влезает в память и необходимость постоянного чтения с nvme уже по полной просаживает скорость:

Kimi-K2-Instruct-UD-IQ1_S
Kimi-K2-Instruct-UD-IQ1_S

Сейчас уже добавили версию smol-IQ1_KT размером 219гб и потерей по PPL в 30%, не запускал, но думаю скорость будет примерно такой же ~4 t/s, как и у Qwen3-Coder.

Интересно, можно ли будет через опенроутер в copilot завести..

Опять какой-то маркетинговый булшит от людей бесконечно далеких от темы. Причем здесь какой-то древний GPT-4?

Самое главное: эта новая модель меньше чем даже DeepSeek R1, при этом не reasoning, а кодит лучше тем reasoning Gemini 2.5 Pro. Далее, эти китайские тролли форкнули гугловский Gemini CLI, заменили модель на свою и обозвали qwen-code, народ тестит и утверждает что оно работает на уровне Claude Sonnet4, только околобесплатно, а не тонны денег, как того требует Соннет.

11 июля вышла опенсорсная Kimi K2, перед ее выходом Сэм Альтман надув щеки рассказывал как OpenAI скоро релизнет свою опенсорсную модель, которая будет лучше всех опенсорсных, а как вышла Kimi K2, на следующий день, 12 июля он сразу сдулся и запричитал, "Ой, мне надо срочно потестировать нашу модель на безопастность", теперь вышла эта Qwen3-Coder - первая в линейке Qwen3 кодеров (обещают и другие скоро) и уже лучше даже чем Kimi K2, не смотря на то, что в 2 раза меньше. Походу теперь Альтман застрял с тестированием безопастности совсем надолго.

На своем сайте в чате он кодит, мягко скажем не очень. Субъективно конечно но что есть.

В тулзах типа aider в бенчмарках его еще нет, но есть kimi k2 и он показывает результат далекий от топов.

Можно взять гугловский gemini cli, взять qwen-code, и claude-code, всем трем подключить MCP context7 для свежей документации, дать одну и ту-же задачу всем трем и сравнить. С claude-code сам, честно, не сравнивал, но gemini-cli хуже чем qwen-code.

А что насчет RooCode? Удобнее, но слабее cli тулзов?

Хочу понять, насколько целесообразно переходить в CLI (Aider или тот же qwen-code) для сложных задач при использовании той же модели, а плагины в VS Code юзать для относительно мелких задач.

Не зря же в RooCode режим оркестрации вводили, чтобы он сам на мелкие задачи разбюивал. Или не поможет, лучше сразу в cli?

Я cli только для теста использовал, пока использовать для работы не собираюсь, тем более что прямо сейчас Qwen3-coder еще, как ни странно, в программировании дорогой из-за дорогих input токенов, которых для кодинга улетает много. Подожду неделю когда у других провайдеров появится в количестве, в теории он должен быть дешевле DeepSeek из-за того что меньше параметров.

Да я вот что-то не понял.

Оригинальный вроде как $1.5 1M Input.

OpenRouter вчера был $1 (дороже дипсика, но не катастрофически).

А сейчас:

Для сравнения

Есть подозрения, что решил он это не без помощи вашего же поста. В частности ответов под ним. Так что прям удивляться такому я бы не стал

согласен, еще он сделал код идиоматичным что тоже могут и другие ии

Люди пишут про лимиты, каковы они в этом qwen3 coder?

Ждём рассуждающую и её кванты.

Sign up to leave a comment.