Как стать автором
Обновить

Вышла Qwen3. Весит мало, работает быстро. Обходит LLama4 402B Maverick и конкурирует с DeepSeek R1

Время на прочтение2 мин
Количество просмотров12K

Новое семейство Qwen3 представлено в виде Dense: 0.6B,1.7B, 4B, 8B, 14B, 32B, и в виде MoE: 30B-A3B, 235B-A22B. Каждая модель поддерживать гибридный режим работы: обычный и размышление. Поддерживает 119 языков и диалектов.

Маленькие модели 0.6B подойдут для speculative decoding в llama.cpp и производных, вроде LM Studio, позволяя ускорять выполнение больших моделей за счет предсказания уже очевидных токенов, где не требуется полноценная работа большой модели. Таким образом можно получить ускорение в среднем 20-50% без изменения качества ответа, но всё зависит от множества факторов, включая язык токенов.

MoE модели записываются в формате Qwen3-30B-A3B и Qwen3-235B-A22B, что означает, что модель имеет всего 30B или 235B параметров, из который активных 3B или 22B. Активные параметры в MoE означают, что на вычисление каждого следующего токена будет задействована не вся модель, а лишь её часть, что сильно снижает требование к вычислительным ресурсам.

Главное преимущество MoE моделей это кратное снижение требований к железу, запускать можно даже с ssd (ключ --ubatch-size 1, чтобы обрабатывать запросы pp партиями 1 за раз, вместо 512, иначе ssd станет узким местом), можно выгрузить общие слоя в vram, получая приличное ускорение на одной GPU (ключ -ot exps=CPU или --override-tensor ".ffn_.*_exps.=CPU"), или использовать форки ik_llama и KTransformers, позволяющие использовать новые оптимизации, такие как -mla и -fmoe.

По бенчмаркам можно увидеть, что модель 30B-A3B превосходит Gemma3-27B и DeepSeek V3 старого образца (версия DeepSeek V3-0324 сильно превосходит обычный V3).

Qwen3-30B-A3B занимает почти тот же размер, что и Gemma3-27B, но при этом, за счет всего 3B активных параметров, работает быстрее, что позволяет её запустить даже на CPU с хорошей скоростью.

Модель Qwen3-235B-A22B по бенчмаркам превосходит LLama4 Maverick 402B-A17B, будучи почти в 2 раза меньше.

Модель позволяет управлять Thinking Budget - рекомендация для модели по количеству токенов мышления, которые она может использовать при генерации ответа.

Корреляция размера бюджета к качеству ответов
Корреляция размера бюджета к качеству ответов

Официальная рекомендация при использовании режима размышлений: Temperature=0.6TopP=0.95TopK=20, MinP=0

Без режима мышления: Temperature=0.7TopP=0.8TopK=20, MinP=0

Попробовать онлайн все виды моделей в официальном спейсе: https://huggingface.co/spaces/Qwen/Qwen3-Demo

Также старшие модели уже доступны на https://openrouter.ai/ (как через api, так и через Chat на сайте):

Коллекция gguf (часть квантов сломана, об этом было предупреждение): https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95

Как запускать локально на CPU или CPU + GPU: https://habr.com/ru/articles/831272/

Теги:
Хабы:
+23
Комментарии14

Другие новости

Ближайшие события