Компания Z.ai представила GLM 5.2 — новую флагманскую модель семейства GLM, ориентированную на long-horizon задачи: системную разработку, большие кодовые базы, сложный дебаг, оптимизацию производительности и длительные агентные сценарии.

Главное изменение относительно GLM 5.1 — стабильный контекст на 1M токенов. В релизе Z.ai отдельно подчёркивает, что речь не просто о возможности принять длинный prompt, а о сохранении качества на длинных инженерных траекториях: когда агент много шагов работает с кодом, инструментами, промежуточными результатами и не должен терять структуру задачи.

Ключевые изменения GLM 5.2:

* контекстное окно 1M токенов для длинных агентных задач

* улучшенные возможности в кодинге

* несколько уровней thinking effort для баланса качества, скорости и стоимости

* архитектурная оптимизация IndexShare, которая снижает per-token FLOPs до 2.9× на контексте 1M

* улучшенный MTP-слой для speculative decoding с ростом acceptance length до 20%

* MIT-лицензия без региональных ограничений

По бенчмаркам GLM 5.2 заметно выросла относительно предыдущей версии и стала одной из самых сильных open-source моделей для кодинга:

* Terminal-Bench 2.1: 81.0 против 63.5 у GLM 5.1

* SWE-bench Pro: 62.1 против 58.4 у GLM 5.1

* FrontierSWE: 74.4 — всего на 1% ниже Claude Opus 4.8 и на 1% выше GPT-5.5

* PostTrainBench: 34.3 — выше Claude Opus 4.7 и GPT-5.5, уступает только Claude Opus 4.8

* SWE-Marathon: 13.0 — второй результат после моделей Opus

На длинных coding benchmarks GLM 5.2 особенно интересна тем, что 1M контекст начинает конвертироваться в практическое качество. FrontierSWE проверяет способность агента выполнять открытые технические проекты длительностью от нескольких часов до десятков часов. PostTrainBench оценивает, насколько агент может улучшать небольшие модели через post-training. SWE-Marathon проверяет ultra-long-horizon задачи вроде разработки компиляторов, оптимизации kernels и production-grade сервисов.

Отдельно в GLM 5.2 появился контроль effort level. Пользователь может выбирать режим рассуждения в зависимости от задачи: быстрее и дешевле для простых запросов или глубже для сложных агентных сценариев. По данным релиза, при сопоставимом token budget модель показывает заметно более сильный результат, чем GLM 5.1, и по уровню агентного кодинга располагается между Claude Opus 4.7 и Claude Opus 4.8.

В архитектуре Z.ai использовала IndexShare для DSA: один lightweight indexer переиспользуется на каждые четыре sparse attention слоя. Это снижает стоимость dot product и top-k операций на длинном контексте. Также был переработан MTP-слой для speculative decoding: применены IndexShare, KVShare, rejection sampling и end-to-end TV loss. В экспериментах acceptance length вырос с 4.56 до 5.47, то есть примерно на 20%.

Попробовать GLM 5.2 можно прямо сейчас — выберите модель в настройках KodaCode для VS Code, JetBrains IDE или в Koda CLI. У KodaCode есть бесплатный тариф, поэтому протестировать модель можно абсолютно бесплатно: достаточно установить KodaCode и войти в аккаунт.

Скачивайте и пользуйтесь KodaCode: https://download.kodacode.ru

За новыми моделями, релизами и обновлениями KodaCode можно следить в нашем Telegram-канале: https://t.me/kodacoderu

Подробнее про KodaCode читайте в следующих статьях на Хабре:

KodaCode для JetBrains IDE [Beta]: AI-помощник разработчика

Koda: AI-помощник разработчика для VS Code

Koda CLI: AI-помощник прямо в терминале