В последние дни мы наблюдаем уже не столько за битвой OpenAI и DeepSeek, сколько за баталиями DeepSeek против Qwen. И вот Qwen наносят новый удар. И это после того, как уже был релиз Qwen2.5-VL и релиз Qwen2.5 с контекстом в 1 миллион токенов.
Вчера была выпущена LLM-модель Qwen2.5-Max. Он превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует близкие результаты в других бенчмарках, как к примеру MMLU-Pro.
Коротко о модели и архитектуре
Qwen2.5-Max - это крупномасштабная модель Mixture of Experts, которая была предварительно обучена на более чем 20 триллионах токенов и дополнительно обучена с использованием Supervised-Fine-Tuning (то есть - с участием человека) и обучения на основе фидбека от людей (RLHF).
В отличие от своих более открытых коллег из DeepSeek, Qwen не выложили данные по Qwen2.5-Max ни на GitHub, ни на HuggingFace. Это несколько нестандартно для них - детальное описание предыдущих моделей обычно выкладывалось сразу на обе площадки, а в этом случае мы увидели только доступ к API и демку (ну и модель добавлена в QwenChat, конечно же).
Отсюда я могу сделать вывод, что модель выкладывали в бешенной спешке, чтобы успеть перетянуть на себя одеяло, и бахнуть сочный инфоповод пока ИИ-шумиха приуроченная к китайскому нового году ещё горяча.
Судя по тому, что Qwen2.5-1M вчера обновили на HuggingFace, я могу сделать осторожное предположение, что Qwen2.5-Max основан именно на этой модели. Если это так, то это здорово, как я уже писал в статье про Qwen2.5-1M, настолько большим окном контекста из моделей в проде сейчас обладают только Gemini от Google (1M-2M) и MiniMax-01 (4M).
Бенчмарки
Ребята из Qwen опубликовали пачку результатов для своей новой модели, но я бы относился к этим результатам с некоторой долей скепсиса. Пока данные ещё не выложены даже на HuggingFace, и независимые исследователи не прогнали модель по бенчам хотя бы по API - мы можем только лишь доверять репортам самой компании (хотя, кажется, врать в них было бы глупо, бенчмарки перепроверят буквально за пару дней).
Итак, сравнение с DeepSeek и с LLaMA3.1:

Сравнение с GPT-4o и Claude Sonnet-3.5:

На основе того, что по данным этих бенчмарков Qwen2.5-Max проигрывает Claude 3.5 в трёх бенчмарках из пяти, я могу сделать вывод, что главная цель здесь была - не наезд на американских коллег, а, скорее, борьба за статус в битве с коллегами китайскими.
Заключение
Всё API Qwen является OpenAI-совместимым, поэтому потестировать модель можно уже сейчас:
from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv("API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen-max-2025-01-25",
messages=[
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
]
)
print(completion.choices[0].message)
Могу лишь пожелать вам удачных тестов, а ребятам из Qwen - выложить детальное описание Max на HuggingFace и GitHub как можно скорее.
----
P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как сделать компанию, в которой все сотрудники — AI-агенты. Велком!