Z.ai выпустили GLM-5.1 — новую флагманскую модель под MIT-лицензией, ориентированную на агентные инженерные задачи. По SWE-Bench Pro она набирает 58.4% против 57.3% у Claude Opus 4.6 и 57.7% у GPT-5.4. На NL2Repo (генерация репозиториев) GLM-5.1 обходит GLM-5 с 35.9% до 42.7%.

Но интереснее другое. Большинство моделей ведут себя одинаково: быстро берут низко висящие плоды, потом останавливаются. Дополнительное время не помогает — стратегия исчерпана. GLM-5.1 проектировали с прицелом на другое поведение.

Три эксперимента

  1. Первый — оптимизация векторной БД. Модель получила Rust-код с пустыми заглушками и задачу: максимизировать скорость поиска на датасете SIFT-1M. За 600 попыток GLM-5.1 подняла QPS с 3500 до 21 500 — в 6 раз лучше, чем за стандартные 50 ходов. Каждый раз, когда текущий подход переставал давать прирост, модель анализировала свои же логи и переключалась на другую стратегию: сначала перешла с полного скана на кластерный поиск, потом сжала векторы с f32 до f16, потом добавила двухэтапный пайплайн.

  2. Второй — ускорение GPU-ядер на KernelBench. 50 задач: взять PyTorch-операцию, написать CUDA-ядро быстрее. GLM-5.1 ускорила в среднем в 3.6 раза, Claude Opus 4.6 — в 4.2 раза. Оба продолжали улучшаться до конца лимита.

  3. Третий — сборка Linux-десктопа в браузере. За 8 часов GLM-5.1 собрала браузерный Linux-десктоп с нуля — файловый менеджер, терминал, текстовый редактор, системный монитор. После каждого шага модель сама смотрела на результат и решала, что доделать дальше.

Веса открыты на HuggingFace и ModelScope под MIT. Поддерживаются vLLM и SGLang.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!