GLM-4.7-Flash обходит модели вдвое крупнее — и запускается на ноутбуке / Хабр

Z.ai выпустила GLM-4.7-Flash — облегченную версию флагмана с 30 миллиардами параметров, из которых активны только 3 миллиарда. На бенчмарке SWE-bench Verified модель набрала 59.2% — почти втрое больше, чем Qwen3-30B-A3B-Thinking (22%). Это открытая модель, веса которой уже доступны на Huggingface.

Разрыв с конкурентами того же класса виден и на других тестах: τ²-Bench (работа с инструментами) — 79.5% против 49% у Qwen, BrowseComp — 42.8% против 22.9%. В математике Flash держится на уровне более крупных моделей: 91.6% на AIME 2025, практически наравне с GPT-OSS-20B.

Пользователи в X уже тестируют локальный запуск: на M3 Ultra в 4-bit квантизации модель выдаёт свыше 80 токенов в секунду, на ноутбучных M5 — 40-50 tok/s. Поддержка появилась в MLX, vLLM и SGLang, а API доступен бесплатно с одним параллельным запросом, есть платная версия с высокой пропускной способностью.

Для Z.ai это первый крупный релиз после IPO на Гонконгской бирже 8 января. Компания остается в санкционном списке США, но продолжает выпускать открытые модели, конкурирующие с западными аналогами.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.