Перевод подготовил автор канала Друг Опенсурса, приятного прочтения, заранее благодарю за подписку
GLM-5.1 — это новая открытая модель от Z.ai. Она имеет 744 млрд параметров (40 млрд активных) и контекстное окно 200K. По сравнению с GLM-5 в ней улучшены написание кода, работа с инструментами и логические задачи.


Для хранения полной модели нужно 1,65 ТБ. Квантованные версии GGUF от Unsloth занимают меньше места: 2-битная версия требует 220 ГБ, 1-битная 200 ГБ.
Benchmark | GLM-5.1 | GLM-5 | Qwen3.6+ | Minimax M2.7 | DeepSeek V3.2 | Kimi K2.5 | Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 |
|---|---|---|---|---|---|---|---|---|---|
HLE | 31.0 | 30.5 | 28.8 | 28.0 | 25.1 | 31.5 | 36.7 | 45.0 | 39.8 |
HLE (Tools) | 52.3 | 50.4 | 50.6 | — | 40.8 | 51.8 | 53.1* | 51.4* | 52.1* |
AIME 2026 | 95.3 | 95.4 | 95.1 | 89.8 | 95.1 | 94.5 | 95.6 | 98.2 | 98.7 |
HMMT Nov 2025 | 94.0 | 96.9 | 94.6 | 81.0 | 90.2 | 91.1 | 96.3 | 94.8 | 95.8 |
HMMT Feb 2026 | 82.6 | 82.8 | 87.8 | 72.7 | 79.9 | 81.3 | 84.3 | 87.3 | 91.8 |
IMOAnswerBench | 83.8 | 82.5 | 83.8 | 66.3 | 78.3 | 81.8 | 75.3 | 81.0 | 91.4 |
GPQA-Diamond | 86.2 | 86.0 | 90.4 | 87.0 | 82.4 | 87.6 | 91.3 | 94.3 | 92.0 |
SWE-Bench Pro | 58.4 | 55.1 | 56.6 | 56.2 | — | 53.8 | 57.3 | 54.2 | 57.7 |
NL2Repo | 42.7 | 35.9 | 37.9 | 39.8 | — | 32.0 | 49.8 | 33.4 | 41.3 |
TerminalBench 2 | 63.5 | 56.2 | 61.6 | — | 39.3 | 50.8 | 65.4 | 68.5 | — |
TerminalBench (Best) | 66.5 (Claude Code) | 56.2 | — | 57.0 | 46.4 | — | — | — | 75.1 |
CyberGym | 68.7 | 48.3 | — | — | 17.3 | 41.3 | 66.6 | — | — |
BrowseComp | 68.0 | 62.0 | — | — | 51.4 | 60.6 | — | — | — |
BrowseComp (CM) | 79.3 | 75.9 | — | — | 67.6 | 74.9 | 84.0 | 85.9 | 82.7 |
τ³-Bench | 70.6 | 69.2 | 70.7 | 67.6 | 69.2 | 66.0 | 72.4 | 67.1 | 72.9 |
MCP-Atlas | 71.8 | 69.2 | 74.1 | 48.8 | 62.2 | 63.8 | 73.8 | 69.2 | 67.2 |
Tool-Decathlon | 40.7 | 38.0 | 39.8 | 46.3 | 35.2 | 27.8 | 47.2 | 48.8 | 54.6 |
Vending Bench 2 ($) | $5634 | $4432 | $5115 | — | $1034 | $1198 | $8018 | $911 | $6144 |
Но не используйте CUDA 13.2 для GGUF, это портит качество ответов.
Требования к оборудованию
Версия UD-IQ2_M подходит для Mac с 256 ГБ оперативной памяти. Также она работает на ПК с одной видеокартой на 24 ГБ и 256 ГБ оперативной памяти через MoE offloading. Для 1-битной версии нужно 220 ГБ памяти, для 8-битной 805 ГБ.
Параметр | Default Settings (Most Tasks) | Terminal Bench |
|---|---|---|
temperature | 1.0 | 0.7 |
top_p | 0.95 | 1.0 |
max new tokens | 131072 | 16384 |
В GLM-5.1 по умолчанию включен режим рассуждения. Для его отключения используйте
--chat-template-kwargs '{"enable_thinking":false}'
Использование Unsloth Studio
Установка для MacOS, Linux, WSL
curl -fsSL https://unsloth.ai/install.sh | sh
Установка для Windows PowerShell
irm https://unsloth.ai/install.ps1 | iex
Запуск
unsloth studio -H 0.0.0.0 -p 8888
После запуска откройте http://localhost:8888 В поиске найдите GLM-5.1. Рекомендуется выбирать версию UD-Q2_K_XL. Если VRAM не хватит, система задействует оперативную память.

Использование llama.cpp
Соберите llama.cpp из репозитория GitHub. Для систем без GPU или на Mac с Metal используйте -DGGML_CUDA=OFF.
Для сборки
apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp
Запуск обычной версии
export LLAMA_CACHE="unsloth/GLM-5.1-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \ --ctx-size 16384 \ --temp 0.7 \ --top-p 1.0
Запуск для вызова инструментов
export LLAMA_CACHE="unsloth/GLM-5.1-GGUF" ./llama.cpp/llama-cli \ -hf unsloth/GLM-5.1-GGUF:UD-IQ2_M \ --ctx-size 16384 \ --temp 1.0 \ --top-p 0.95
Работа через API
Для запуска сервера
./llama.cpp/llama-server \ --model unsloth/GLM-5.1-GGUF/UD-IQ2_M/GLM-5.1-UD-IQ2_M-00001-of-00006.gguf \ --alias "unsloth/GLM-5.1" \ --prio 3 \ --temp 1.0 \ --top-p 0.95 \ --ctx-size 16384 \ --port 8001
Пример кода на Python для обращения к серверу
from openai import OpenAI openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/GLM-5.1", messages = [{"role": "user", "content": "Create a Snake game."},], ) print(completion.choices[0].message.content)
Вызов функций
GLM-5.1 поддерживает вызов инструментов. Для этого нужно определить функции в Python и передать их описание в модель.
def add_number(a: float | str, b: float | str) -> float: return float(a) + float(b) def terminal(command: str) -> str: if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command: return "Dangerous command" return str(subprocess.run(command, capture_output = True, text = True, shell = True).stdout)
Модель может использовать эти функции для выполнения расчетов или команд в системе. При использовании llama-server автоматическая обработка вызовов настраивается через цикл, который проверяет наличие tool_calls в ответе модели и возвращает результат выполнения функции.
