GiantLynx Jul 1 at 14:43

Подвинься, LLaMA! Новая open‑source LLM от Tencent — Hunyuan‑A13B — уже доступна для самостоятельного хостинга

4 min

6.7K

Artificial IntelligenceMachine learning *

Tencent только что выпустила новую open‑source модель под названием Hunyuan‑A13B‑Instruct. Весы модели открыты (насчёт кода — пока неясно), и она может работать локально (если у вас есть GPU уровня NVIDIA DGX B200). Если вам интересно, как она себя показывает, и вы хотите попробовать её в деле — ниже инструкции, как можно её быстро развернуть на арендованной видеокарте за несколько минут.

📎Перевод, оригинальная новость здесь.

Что такое Hunyuan‑A13B?

Hunyuan‑A13B‑Instruct это модель с архитектурой MoE (Mixture‑of‑Experts) с суммарно 80 миллиардами параметров, из которых при инференсе активны лишь 13 миллиардов. Это позволяет значительно снизить вычислительные затраты по сравнению с классическими (плотными) LLM.

Mixture‑of‑Experts (MoE) — это архитектура, в которой при обработке каждого входа активируется лишь подмножество «экспертных» подсетей. Это уменьшает нагрузку на вычислительные ресурсы, одновременно увеличивая масштаб модели. Специальный gating-механизм выбирает нужных «экспертов» динамически, в зависимости от входных данных.

Вот некоторые ключевые особенности:

Поддержка контекста до 256 тыс. токенов «из коробки».
Режимы быстрого и медленного мышления.
Grouped Query Attention (GQA) для более эффективного инференса.
Тонкая настройка под агентные задачи, с результатами бенчмарков на BFCL‑v3 и τ‑Bench.
Поддержка квантования, включая GPTQ.

Модель выглядит как серьёзный кандидат для локальных экспериментов — особенно в задачах с длинным контекстом и интеллектуальными агентами.

Шаг 1: Запуск инстанса на RunPod

Самый простой способ попробовать модель в деле — использовать RunPod (по этой реферальной можно получить между 5$ и 500$ в кредитах).

Для этого нам понадобится:

Сетевой раздел объёмом 300 ГБ
GPU B200 (менее мощные, скорее всего, не подойдут — требуется около 150 ГБ VRAM)
Образ с поддержкой PyTorch

Создание сетевого раздела:

Регион: выберите тот, где доступен B200 (на момент написания — EU-RO-1)
Размер: 300 ГБ
Стоимость: примерно $21/мес (оплата идёт даже при простое)

Создание пода

Тип GPU: B200
Образ:
runpod/pytorch:2.8.0-py3.11-cuda12.8.1-cudnn-devel-ubuntu22.04
⚠️ Более ранние версии могут не работать
Количество GPU: 1
Включаем: SSH и Jupyter
Подключаем: сетевой раздел (тот, что создали ранее)

Шаг 2: Установка зависимостей

Открываем терминал и вводим:

%pip install transformers tiktoken accelerate gptqmodel optimum

Шаг 3: Загружаем модель

Чтобы загрузки не шли в корневую директорию, укажем путь к кэшу на сетевом разделе:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import os
import re

os.environ['HF_HOME'] = '/workspace/hf-cache' #
model_path = 'tencent/Hunyuan-A13B-Instruct'

tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, cache_dir='/workspace/hf-cache/', local_files_only=False, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)

messages = [
  {
  "role": "user",
  "content": "What does the frog say?"
  },
]

tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt",
                                                  enable_thinking=True # Toggle thinking mode (default: True)
                                              )

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=5000)
output_text = tokenizer.decode(outputs[0])
print(output_text)

Заметки:

При первом запуске скачается около 150 ГБ весов модели
Во время инференса используется примерно 153 ГБ видеопамяти (VRAM)
Загрузка модели в видеопамять может занять несколько минут
Если загрузка GPU (не только VRAM) увеличивается — значит, модель действительно работает
Если просто хотим попробовать на CPU, можно указать device_map="cpu"
В этом случае стоит убедиться, что у нас есть около 200 ГБ оперативной памяти и достаточно мощный процессор.

Стоимость

B200-под — 6,39 $/час
Сетевой раздел — 21 $/месяц, даже когда мы его не используем
Совет: выключаем под, когда не работаем с моделью 😉

Заметки по инструментам

Поддержки llama.cpp пока нет — PR #14425 ещё в процессе
В Python с transformers и bfloat16 всё работает без проблем

Бенчмарки

Официальные результаты размещены на Hugging Face и посчитаны бэкендом TRT-LLM (больше - лучше):

Model	Hunyuan-Large	Qwen2.5-72B	Qwen3-A22B	Hunyuan-A13B
MMLU	88.40	86.10	87.81	88.17
MMLU-Pro	60.20	58.10	68.18	67.23
MMLU-Redux	87.47	83.90	87.40	87.67
BBH	86.30	85.80	88.87	87.56
SuperGPQA	38.90	36.20	44.06	41.32
EvalPlus	75.69	65.93	77.60	78.64
MultiPL-E	59.13	60.50	65.94	69.33
MBPP	72.60	76.00	81.40	83.86
CRUX-I	57.00	57.63	-	70.13
CRUX-O	60.63	66.20	79.00	77.00
MATH	69.80	62.12	71.84	72.35
CMATH	91.30	84.80	-	91.17
GSM8k	92.80	91.50	94.39	91.83
GPQA	25.18	45.90	47.47	49.12

Hunyuan-A13B-Instruct демонстрирует впечатляюще конкурентоспособные результаты на различных бенчмарках — особенно в областях математики, естественных наук, агентных задач и других.
Мы сравнили её с рядом мощных моделей — результаты представлены ниже.
— Tencent

Topic	Bench	OpenAI-o1-1217	DeepSeek R1	Qwen3-A22B	Hunyuan-A13B-Instruct
Mathematics	AIME 2024 AIME 2025 MATH	74.3 79.2 96.4	79.8 70 94.9	85.7 81.5 94.0	87.3 76.8 94.3
Science	GPQA-Diamond OlympiadBench	78 83.1	71.5 82.4	71.1 85.7	71.2 82.7
Coding	Livecodebench Fullstackbench ArtifactsBench	63.9 64.6 38.6	65.9 71.6 44.6	70.7 65.6 44.6	63.9 67.8 43
Reasoning	BBH DROP ZebraLogic	80.4 90.2 81	83.7 92.2 78.7	88.9 90.3 80.3	89.1 91.1 84.7
InstructionFollowing	IF-Eval SysBench	91.8 82.5	88.3 77.7	83.4 74.2	84.7 76.1
TextCreation	LengthCtrl InsCtrl	60.1 74.8	55.9 69	53.3 73.7	55.4 71.9
NLU	ComplexNLU Word-Task	64.7 67.1	64.5 76.3	59.8 56.4	61.2 62.9
Agent	BDCL v3 τ-Bench ComplexFuncBench C3-Bench	67.8 60.4 47.6 58.8	56.9 43.8 41.1 55.3	70.8 44.6 40.6 51.7	78.3 54.7 61.2 63.5

Заключение

Это одна из самых любопытных открытых MoE‑моделей на сегодняшний день. Она поддерживает длинный контекст, реализована с рядом продуманных архитектурных решений и достаточно проста в запуске.

Если хотите попробовать её самостоятельно, приведённая выше инструкция поможет быстро начать работу.

Hubs: