Search
Write a publication
Pull to refresh

Подвинься, LLaMA! Новая open‑source LLM от Tencent — Hunyuan‑A13B — уже доступна для самостоятельного хостинга

Reading time4 min
Views6.7K

Tencent только что выпустила новую open‑source модель под названием Hunyuan‑A13B‑Instruct. Весы модели открыты (насчёт кода — пока неясно), и она может работать локально (если у вас есть GPU уровня NVIDIA DGX B200). Если вам интересно, как она себя показывает, и вы хотите попробовать её в деле — ниже инструкции, как можно её быстро развернуть на арендованной видеокарте за несколько минут.

📎Перевод, оригинальная новость здесь.

Что такое Hunyuan‑A13B?

Hunyuan‑A13B‑Instruct это модель с архитектурой MoE (Mixture‑of‑Experts) с суммарно 80 миллиардами параметров, из которых при инференсе активны лишь 13 миллиардов. Это позволяет значительно снизить вычислительные затраты по сравнению с классическими (плотными) LLM.

Mixture‑of‑Experts (MoE) — это архитектура, в которой при обработке каждого входа активируется лишь подмножество «экспертных» подсетей. Это уменьшает нагрузку на вычислительные ресурсы, одновременно увеличивая масштаб модели. Специальный gating-механизм выбирает нужных «экспертов» динамически, в зависимости от входных данных.

Вот некоторые ключевые особенности:

  • Поддержка контекста до 256 тыс. токенов «из коробки».

  • Режимы быстрого и медленного мышления.

  • Grouped Query Attention (GQA) для более эффективного инференса.

  • Тонкая настройка под агентные задачи, с результатами бенчмарков на BFCL‑v3 и τ‑Bench.

  • Поддержка квантования, включая GPTQ.

Модель выглядит как серьёзный кандидат для локальных экспериментов — особенно в задачах с длинным контекстом и интеллектуальными агентами.


Шаг 1: Запуск инстанса на RunPod

Самый простой способ попробовать модель в деле — использовать RunPod (по этой реферальной можно получить между 5$ и 500$ в кредитах).

Для этого нам понадобится:

  • Сетевой раздел объёмом 300 ГБ

  • GPU B200 (менее мощные, скорее всего, не подойдут — требуется около 150 ГБ VRAM)

  • Образ с поддержкой PyTorch

Создание сетевого раздела:

  • Регион: выберите тот, где доступен B200 (на момент написания — EU-RO-1)

  • Размер: 300 ГБ

  • Стоимость: примерно $21/мес (оплата идёт даже при простое)

Создание пода

  • Тип GPU: B200

  • Образ:
    runpod/pytorch:2.8.0-py3.11-cuda12.8.1-cudnn-devel-ubuntu22.04
    ⚠️ Более ранние версии могут не работать

  • Количество GPU: 1

  • Включаем: SSH и Jupyter

  • Подключаем: сетевой раздел (тот, что создали ранее)

Шаг 2: Установка зависимостей

Открываем терминал и вводим:

%pip install transformers tiktoken accelerate gptqmodel optimum

Шаг 3: Загружаем модель

Чтобы загрузки не шли в корневую директорию, укажем путь к кэшу на сетевом разделе:

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import os
import re

os.environ['HF_HOME'] = '/workspace/hf-cache' #
model_path = 'tencent/Hunyuan-A13B-Instruct'

tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, cache_dir='/workspace/hf-cache/', local_files_only=False, device_map="auto", torch_dtype=torch.bfloat16, trust_remote_code=True)

messages = [
  {
  "role": "user",
  "content": "What does the frog say?"
  },
]

tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors="pt",
                                                  enable_thinking=True # Toggle thinking mode (default: True)
                                              )

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=5000)
output_text = tokenizer.decode(outputs[0])
print(output_text)

Заметки:

  • При первом запуске скачается около 150 ГБ весов модели

  • Во время инференса используется примерно 153 ГБ видеопамяти (VRAM)

  • Загрузка модели в видеопамять может занять несколько минут

  • Если загрузка GPU (не только VRAM) увеличивается — значит, модель действительно работает

  • Если просто хотим попробовать на CPU, можно указать device_map="cpu"
    В этом случае стоит убедиться, что у нас есть около 200 ГБ оперативной памяти и достаточно мощный процессор.

Стоимость

  • B200-под — 6,39 $/час

  • Сетевой раздел — 21 $/месяц, даже когда мы его не используем

  • Совет: выключаем под, когда не работаем с моделью 😉

Заметки по инструментам

  • Поддержки llama.cpp пока нет — PR #14425 ещё в процессе

  • В Python с transformers и bfloat16 всё работает без проблем

Бенчмарки

Официальные результаты размещены на Hugging Face и посчитаны бэкендом TRT-LLM (больше - лучше):

Model

Hunyuan-Large

Qwen2.5-72B

Qwen3-A22B

Hunyuan-A13B

MMLU

88.40

86.10

87.81

88.17

MMLU-Pro

60.20

58.10

68.18

67.23

MMLU-Redux

87.47

83.90

87.40

87.67

BBH

86.30

85.80

88.87

87.56

SuperGPQA

38.90

36.20

44.06

41.32

EvalPlus

75.69

65.93

77.60

78.64

MultiPL-E

59.13

60.50

65.94

69.33

MBPP

72.60

76.00

81.40

83.86

CRUX-I

57.00

57.63

-

70.13

CRUX-O

60.63

66.20

79.00

77.00

MATH

69.80

62.12

71.84

72.35

CMATH

91.30

84.80

-

91.17

GSM8k

92.80

91.50

94.39

91.83

GPQA

25.18

45.90

47.47

49.12

Hunyuan-A13B-Instruct демонстрирует впечатляюще конкурентоспособные результаты на различных бенчмарках — особенно в областях математики, естественных наук, агентных задач и других.

Мы сравнили её с рядом мощных моделей — результаты представлены ниже.
— Tencent

Topic

Bench

OpenAI-o1-1217

DeepSeek R1

Qwen3-A22B

Hunyuan-A13B-Instruct

Mathematics

AIME 2024
AIME 2025
MATH

74.3
79.2
96.4

79.8
70
94.9

85.7
81.5
94.0

87.3
76.8
94.3

Science

GPQA-Diamond
OlympiadBench

78
83.1

71.5
82.4

71.1
85.7

71.2
82.7

Coding

Livecodebench
Fullstackbench
ArtifactsBench

63.9
64.6
38.6

65.9
71.6
44.6

70.7
65.6
44.6

63.9
67.8
43

Reasoning

BBH
DROP
ZebraLogic

80.4
90.2
81

83.7
92.2
78.7

88.9
90.3
80.3

89.1
91.1
84.7

InstructionFollowing

IF-Eval
SysBench

91.8
82.5

88.3
77.7

83.4
74.2

84.7
76.1

TextCreation

LengthCtrl
InsCtrl

60.1
74.8

55.9
69

53.3
73.7

55.4
71.9

NLU

ComplexNLU
Word-Task

64.7
67.1

64.5
76.3

59.8
56.4

61.2
62.9

Agent

BDCL v3
τ-Bench
ComplexFuncBench
C3-Bench

67.8
60.4
47.6
58.8

56.9
43.8
41.1
55.3

70.8
44.6
40.6
51.7

78.3
54.7
61.2
63.5

Заключение

Это одна из самых любопытных открытых MoE‑моделей на сегодняшний день. Она поддерживает длинный контекст, реализована с рядом продуманных архитектурных решений и достаточно проста в запуске.

Если хотите попробовать её самостоятельно, приведённая выше инструкция поможет быстро начать работу.

Tags:
Hubs:
Total votes 7: ↑7 and ↓0+8
Comments4

Other news