
Alibaba представила Qwen3 — линейку с MoE-моделями до 235 миллиардов параметров
Команда Qwen от Alibaba Cloud выпустила третье поколение языковых моделей с гибридной архитектурой мышления. Флагманская модель Qwen3-235B-A22B использует Mixture-of-Experts подход с 235 миллиардами параметров, активируя 22 миллиарда для каждого токена.
Архитектура и масштаб
Линейка включает восемь моделей: шесть плотных архитектур от 0.6B до 32B параметров и две MoE-модели — Qwen3-235B-A22B и Qwen3-30B-A3B. Все модели поддерживают контекст до 128K токенов, кроме младших версий с 32K контекстом.
Технические характеристики флагманской модели:
235 миллиардов общих параметров
22 миллиарда активных параметров на токен
128 экспертов, 8 активируется одновременно
94 слоя трансформера
Поддержка 119 языков
Гибридные режимы мышления
Ключевая особенность Qwen3 — два режима обработки запросов. Thinking Mode использует пошаговые рассуждения для сложных задач, а Non-Thinking Mode дает быстрые ответы на простые вопросы.
Интеграция двух режимов обеспечивает масштабируемый контроль вычислительного бюджета с плавным улучшением производительности в зависимости от выделенных ресурсов.
Переключение между режимами происходит через команды /think
и /no_think
в промптах, что позволяет динамически управлять поведением модели в диалоге.
Процесс обучения
Предобучение проводилось на 36 триллионах токенов — в два раза больше, чем у Qwen2.5. Процесс включал три этапа: базовое обучение на 30T токенов с контекстом 4K, улучшение датасета с фокусом на STEM и программирование на 5T токенов, и финальное расширение контекста до 32K.
Постобучение состояло из четырех стадий:
Обучение на длинных chain-of-thought данных
Reinforcement Learning с правилами-наградами
Интеграция thinking и non-thinking режимов
Общее RL для более 20 доменов
Производительность и сравнения
Qwen3-235B-A22B показывает конкурентные результаты с топовыми моделями вроде DeepSeek-R1, o1, o3-mini и Grok-3 в бенчмарках по программированию, математике и общим способностям.
Компактная Qwen3-30B-A3B с 30B общих параметров превосходит QwQ-32B при 10-кратно меньшем количестве активных параметров. Даже Qwen3-4B конкурирует с Qwen2.5-72B-Instruct.
Развертывание и доступность
Модели доступны через несколько платформ: Hugging Face, ModelScope, Kaggle. Для развертывания поддерживаются SGLang и vLLM, для локального использования — Ollama, LMStudio, llama.cpp.
Все модели, кроме самых крупных, лицензированы под Apache 2.0. Компания предоставляет бесплатный доступ через Qwen Chat для тестирования возможностей.
Мультиязычность и агентские способности
Модели поддерживают 119 языков и диалектов, включая основные семьи языков: индоевропейскую, сино-тибетскую, афразийскую, австронезийскую и другие.
Улучшены агентские способности с поддержкой Model Control Protocol (MCP) и оптимизацией для взаимодействия с инструментами и окружением.
Перспективы развития
Команда Qwen позиционирует релиз как шаг к переходу от эпохи обучения моделей к эпохе обучения агентов. Планируется развитие в направлении масштабирования данных, увеличения размера моделей, расширения контекста и мультимодальности.