Локальный запуск GLM-5.1 / Хабр

Перевод подготовил автор канала Друг Опенсурса, приятного прочтения, заранее благодарю за подписку

GLM-5.1 — это новая открытая модель от Z.ai. Она имеет 744 млрд параметров (40 млрд активных) и контекстное окно 200K. По сравнению с GLM-5 в ней улучшены написание кода, работа с инструментами и логические задачи.

Для хранения полной модели нужно 1,65 ТБ. Квантованные версии GGUF от Unsloth занимают меньше места: 2-битная версия требует 220 ГБ, 1-битная 200 ГБ.

Benchmark	GLM-5.1	GLM-5	Qwen3.6+	Minimax M2.7	DeepSeek V3.2	Kimi K2.5	Claude Opus 4.6	Gemini 3.1 Pro	GPT-5.4
HLE	31.0	30.5	28.8	28.0	25.1	31.5	36.7	45.0	39.8
HLE (Tools)	52.3	50.4	50.6	—	40.8	51.8	53.1*	51.4*	52.1*
AIME 2026	95.3	95.4	95.1	89.8	95.1	94.5	95.6	98.2	98.7
HMMT Nov 2025	94.0	96.9	94.6	81.0	90.2	91.1	96.3	94.8	95.8
HMMT Feb 2026	82.6	82.8	87.8	72.7	79.9	81.3	84.3	87.3	91.8
IMOAnswerBench	83.8	82.5	83.8	66.3	78.3	81.8	75.3	81.0	91.4
GPQA-Diamond	86.2	86.0	90.4	87.0	82.4	87.6	91.3	94.3	92.0
SWE-Bench Pro	58.4	55.1	56.6	56.2	—	53.8	57.3	54.2	57.7
NL2Repo	42.7	35.9	37.9	39.8	—	32.0	49.8	33.4	41.3
TerminalBench 2	63.5	56.2	61.6	—	39.3	50.8	65.4	68.5	—
TerminalBench (Best)	66.5 (Claude Code)	56.2 (Claude Code)	—	57.0 (Claude Code)	46.4 (Claude Code)	—	—	—	75.1 (Codex)
CyberGym	68.7	48.3	—	—	17.3	41.3	66.6	—	—
BrowseComp	68.0	62.0	—	—	51.4	60.6	—	—	—
BrowseComp (CM)	79.3	75.9	—	—	67.6	74.9	84.0	85.9	82.7
τ³-Bench	70.6	69.2	70.7	67.6	69.2	66.0	72.4	67.1	72.9
MCP-Atlas	71.8	69.2	74.1	48.8	62.2	63.8	73.8	69.2	67.2
Tool-Decathlon	40.7	38.0	39.8	46.3	35.2	27.8	47.2	48.8	54.6
Vending Bench 2 ($)	$5634	$4432	$5115	—	$1034	$1198	$8018	$911	$6144

Но не используйте CUDA 13.2 для GGUF, это портит качество ответов.

Требования к оборудованию

Версия UD-IQ2_M подходит для Mac с 256 ГБ оперативной памяти. Также она работает на ПК с одной видеокартой на 24 ГБ и 256 ГБ оперативной памяти через MoE offloading. Для 1-битной версии нужно 220 ГБ памяти, для 8-битной 805 ГБ.

Параметр	Default Settings (Most Tasks)	Terminal Bench
temperature	1.0	0.7
top_p	0.95	1.0
max new tokens	131072	16384

В GLM-5.1 по умолчанию включен режим рассуждения. Для его отключения используйте

--chat-template-kwargs '{"enable_thinking":false}'

Использование Unsloth Studio

Установка для MacOS, Linux, WSL

curl -fsSL https://unsloth.ai/install.sh | sh

Установка для Windows PowerShell

irm https://unsloth.ai/install.ps1 | iex

Запуск

unsloth studio -H 0.0.0.0 -p 8888

После запуска откройте http://localhost:8888 В поиске найдите GLM-5.1. Рекомендуется выбирать версию UD-Q2_K_XL. Если VRAM не хватит, система задействует оперативную память.

Использование llama.cpp

Соберите llama.cpp из репозитория GitHub. Для систем без GPU или на Mac с Metal используйте -DGGML_CUDA=OFF.

Для сборки

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Запуск обычной версии

export LLAMA_CACHE="unsloth/GLM-5.1-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 1.0

Запуск для вызова инструментов

export LLAMA_CACHE="unsloth/GLM-5.1-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95

Работа через API

Для запуска сервера

./llama.cpp/llama-server \
    --model unsloth/GLM-5.1-GGUF/UD-IQ2_M/GLM-5.1-UD-IQ2_M-00001-of-00006.gguf \
    --alias "unsloth/GLM-5.1" \
    --prio 3 \
    --temp 1.0 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001

Пример кода на Python для обращения к серверу

from openai import OpenAI
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/GLM-5.1",
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)

Вызов функций

GLM-5.1 поддерживает вызов инструментов. Для этого нужно определить функции в Python и передать их описание в модель.

def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)

def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        return "Dangerous command"
    return str(subprocess.run(command, capture_output = True, text = True, shell = True).stdout)

Модель может использовать эти функции для выполнения расчетов или команд в системе. При использовании llama-server автоматическая обработка вызовов настраивается через цикл, который проверяет наличие tool_calls в ответе модели и возвращает результат выполнения функции.