GLM-5.1 собрала Linux-десктоп в браузере за 8 часов и взяла SOTA на SWE-Bench Pro / Хабр

Китайская Z.ai выпустила подробный рассказ о GLM-5.1 — обновлении флагманской модели, которое заняло первое место на бенчмарке SWE-Bench Pro для сложных инженерных задач. Результат 58,4 балла оказался выше, чем у GPT-5.4 (57,7), Claude Opus 4.6 (57,3) и Gemini 3.1 Pro (54,2). Веса опубликованы на HuggingFace под лицензией MIT.

Главное в релизе — не сами цифры, а заявленная концепция. Команда Z.ai пишет, что предыдущие модели (включая GLM-5) быстро исчерпывают арсенал инструментов: применяют знакомые приемы в первых попытках, выходят на плато и больше не улучшаются, сколько времени им ни дай. GLM-5.1 проектировали так, чтобы она оставалась полезной на длинной дистанции — разбивала задачу на части, ставила эксперименты, читала результаты, находила узкие места и пересматривала стратегию через сотни итераций и тысячи вызовов инструментов.

Чтобы это показать, авторы прогнали модель через три сценария с разной степенью обратной связи. Самый зрелищный — задача собрать в браузере веб-приложение, имитирующее десктоп Linux, без стартового кода и макетов. В обычном прогоне модели обычно сдаются быстро: рисуют каркас с панелью задач и парой окон-заглушек и объявляют задачу выполненной. GLM-5.1 запустили в простой обвязке, которая после каждого круга заставляла модель пересматривать собственный результат и решать, что улучшить. Цикл крутился восемь часов, и к концу в браузере работал полноценный десктоп с файловым менеджером, терминалом, текстовым редактором, монитором системы, калькулятором и играми — все в едином визуальном стиле.

Второй кейс — открытый бенчмарк VectorDBBench, где модель должна реализовать поиск ближайших соседей по вектору на скелете кода на Rust. Лучший прежний результат за один сеанс из 50 ходов — 3547 запросов в секунду, его держала Claude Opus 4.6. Z.ai переделала тест во внешний цикл оптимизации: модель сама решает, когда отправить новую версию на замер. GLM-5.1 не вышла на плато ни после 50, ни после 100 отправок — и за 600+ итераций и более 6000 вызовов инструментов добралась до 21,5 тысячи запросов в секунду. Это примерно в шесть раз больше прежнего рекорда. График показал характерную лестницу: периоды точечной настройки внутри одной стратегии чередовались с шестью структурными перестройками — переход от полного перебора к индексу IVF со сжатием векторов до f16, двухэтапный поиск с предварительным скорингом в u8 и переранжированием в f16, иерархическая маршрутизация. Каждый раз модель сама анализировала логи и выбирала, что менять. Третий сценарий — KernelBench Level 3 для оптимизации GPU-ядер — оказался сложнее: GLM-5.1 показала ускорение в 3,6 раза за 1200 ходов, но Claude Opus 4.6 пока остаётся впереди с 4,2× и не выглядит выдохшейся.

GLM-5.1 уже доступна подписчикам GLM Coding Plan и совместима с Claude Code, OpenCode, Cline и OpenClaw. Из оговорок — модель тратит квоту втрое быстрее в часы пик (до конца апреля непиковое использование считают по обычному тарифу). Авторы прямо признают, что им предстоит большая оптимизация под долгие задачи: модели по-прежнему трудно удерживать связность на трассах в тысячи вызовов и оценивать саму себя там, где нет числовой метрики. Но именно умение продолжать улучшаться, когда обычные модели уже опускают руки, и есть та черта, ради которой имеет смысл следить за следующими версиями GLM.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.