ElKornacio 29 янв в 13:13

Не DeepSeek'ом единым: вышел Qwen2.5-Max от Alibaba

2 мин

22K

Искусственный интеллектМашинное обучение*

В последние дни мы наблюдаем уже не столько за битвой OpenAI и DeepSeek, сколько за баталиями DeepSeek против Qwen. И вот Qwen наносят новый удар. И это после того, как уже был релиз Qwen2.5-VL и релиз Qwen2.5 с контекстом в 1 миллион токенов.

Вчера была выпущена LLM-модель Qwen2.5-Max. Он превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует близкие результаты в других бенчмарках, как к примеру MMLU-Pro.

Коротко о модели и архитектуре

Qwen2.5-Max - это крупномасштабная модель Mixture of Experts, которая была предварительно обучена на более чем 20 триллионах токенов и дополнительно обучена с использованием Supervised-Fine-Tuning (то есть - с участием человека) и обучения на основе фидбека от людей (RLHF).

В отличие от своих более открытых коллег из DeepSeek, Qwen не выложили данные по Qwen2.5-Max ни на GitHub, ни на HuggingFace. Это несколько нестандартно для них - детальное описание предыдущих моделей обычно выкладывалось сразу на обе площадки, а в этом случае мы увидели только доступ к API и демку (ну и модель добавлена в QwenChat, конечно же).

Отсюда я могу сделать вывод, что модель выкладывали в бешенной спешке, чтобы успеть перетянуть на себя одеяло, и бахнуть сочный инфоповод пока ИИ-шумиха приуроченная к китайскому нового году ещё горяча.

Судя по тому, что Qwen2.5-1M вчера обновили на HuggingFace, я могу сделать осторожное предположение, что Qwen2.5-Max основан именно на этой модели. Если это так, то это здорово, как я уже писал в статье про Qwen2.5-1M, настолько большим окном контекста из моделей в проде сейчас обладают только Gemini от Google (1M-2M) и MiniMax-01 (4M).

Бенчмарки

Ребята из Qwen опубликовали пачку результатов для своей новой модели, но я бы относился к этим результатам с некоторой долей скепсиса. Пока данные ещё не выложены даже на HuggingFace, и независимые исследователи не прогнали модель по бенчам хотя бы по API - мы можем только лишь доверять репортам самой компании (хотя, кажется, врать в них было бы глупо, бенчмарки перепроверят буквально за пару дней).

Итак, сравнение с DeepSeek и с LLaMA3.1:

Сравнение с GPT-4o и Claude Sonnet-3.5:

На основе того, что по данным этих бенчмарков Qwen2.5-Max проигрывает Claude 3.5 в трёх бенчмарках из пяти, я могу сделать вывод, что главная цель здесь была - не наезд на американских коллег, а, скорее, борьба за статус в битве с коллегами китайскими.

Заключение

Всё API Qwen является OpenAI-совместимым, поэтому потестировать модель можно уже сейчас:

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
      {'role': 'system', 'content': 'You are a helpful assistant.'},
      {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

Могу лишь пожелать вам удачных тестов, а ребятам из Qwen - выложить детальное описание Max на HuggingFace и GitHub как можно скорее.

----

P.S. 2025 год на дворе, неужели вы думали я не бахну ссылку на свой Телеграм канал в конце статьи? Я там регулярно пишу по ИИ/агентов, даю более глубокую аналитику по новостям, и рассказываю как сделать компанию, в которой все сотрудники — AI-агенты. Велком!

Хабы:

Не DeepSeek'ом единым: вышел Qwen2.5-Max от Alibaba

Коротко о модели и архитектуре

Бенчмарки

Заключение

Другие новости

Работа

Ближайшие события