
Китайская компания Zhipu AI, специализирующаяся на искусственном интеллекте, выпустила GLM-5V-Turbo, свою первую многомодальную базовую модель кодирования. Она обрабатывает изображения, видео и текст и разработана специально для рабочих процессов агентов.
С помощью GLM-5V-Turbo стартап стремится сократить разрыв между визуальным пониманием и генерацией кода. Вместо работы только с текстом, модель анализирует макеты дизайна и генерирует исполняемый код непосредственно на их основе. По словам компании, она напрямую интегрируется с такими агентами, как Claude Code и OpenClaw, охватывая полный цикл «понимание среды → планирование действий → выполнение задач».
Окно контекста обрабатывает 200 000 токенов, при этом максимальный объем выводимых данных составляет 128 000 токенов. Функции включают режим обдумывания, потоковый вывод, вызов функций и кэширование контекста.
Как видение и код объединяются в единой модели
По данным Z.AI, высокая производительность GLM-5V-Turbo обусловлена улучшениями в четырех областях: архитектура модели, методы обучения, построение данных и инструментарий.
Модель учится обрабатывать изображения и текст вместе с самого начала обучения, а не добавляет отдельный модуль распознавания изображений к готовой языковой модели постфактум. Для этого Z.AI разработала новый кодировщик изображений под названием CogViT. Модель также предсказывает несколько токенов одновременно во время вывода, что должно ускорить обработку результатов.
Обучение с подкреплением оптимизирует модель для более чем 30 типов задач, включая STEM-дисциплины, основы, видео, агентов с графическим интерфейсом пользователя и агентов программирования, стремясь к более надежному восприятию, рассуждению и выполнению задач агентами.
Для решения проблемы нехватки данных для обучения агентов компания Z.AI разработала многоуровневую, контролируемую и проверяемую систему данных. Мета-навыки агентов заложены на этапе предварительного обучения, что позволяет повысить точность прогнозирования и выполнения действий на ранних этапах.
Новый мультимодальный набор инструментов расширяет возможности агента от чисто текстового взаимодействия до визуального. Инструменты для рисования рамок, создания скриншотов и чтения веб-сайтов, включая распознавание изображений, замыкают цикл восприятия-планирования-выполнения.
Высокие показатели в тестах производительности кода и графического интерфейса агента
По данным Z.AI, GLM-5V-Turbo демонстрирует лучшие результаты в задачах многомодального кодирования и работы агентов. Модель показывает хорошие результаты в генерации кода на основе дизайна, визуальной генерации кода, многомодальном поиске и визуальном исследовании, а также демонстрирует высокие показатели в AndroidWorld и WebVoyager — двух бенчмарках, проверяющих способность агента ориентироваться в реальных графических средах.

В задачах, требующих только текстового программирования, GLM-5V-Turbo, как сообщается, не демонстрирует снижения производительности, несмотря на добавленные визуальные возможности, и показывает хорошие результаты во всех трех основных тестах CC-Bench-V2 (бэкенд, фронтенд, исследование репозиториев). Он также демонстрирует высокие показатели в PinchBench, ClawEval и ZClawBench, которые измеряют качество выполнения задач. Независимые оценки пока ожидаются.

Дизайнерские макеты превращаются в работающие фронтенд-проекты
GLM-5V-Turbo ориентирован на несколько конкретных сценариев использования. Модель берет макеты дизайна или эталонные изображения и генерирует полный, работоспособный фронтенд-проект. Она восстанавливает структуру и функциональность каркаса, стремясь к идеальной визуальной согласованности с дизайном высокого разрешения.
В сочетании с такими фреймворками, как Claude Code, модель обеспечивает автономное исследование графического интерфейса пользователя: она самостоятельно ищет информацию на целевых веб-сайтах, отслеживает переходы между страницами, собирает визуальные ресурсы и детали взаимодействия, а также пишет код на основе найденной информации. Z.AI называет это переходом от «воспроизведения по скриншоту» к «воспроизведению посредством автономного исследования».
Для отладки модель делает скриншоты неработающих страниц, автоматически выявляет проблемы рендеринга, такие как смещение макета, наложение компонентов и несоответствие цветов, а затем генерирует код для исправления. Благодаря интеграции GLM-5V-Turbo, OpenClaw также может понимать макеты веб-сайтов, элементы графического интерфейса пользователя и диаграммы, что помогает ему решать более сложные задачи, сочетающие в себе восприятие, планирование и выполнение.
Z.AI предоставляет официальные навыки, включая создание подписей к изображениям, визуальное обоснование, написание текстов на основе документов, проверку резюме и генерацию подсказок, все это доступно на ClawHub. Модель GLM-5V-Turbo пока доступна только в виде API через платформу Z.AI по цене 1,20 доллара за миллион входных токенов и 4 доллара за миллион выходных токенов, что соответствует цене текстовой модели GLM-5-Turbo и немного выше базовой модели GLM-5. Z.AI пока не объявила об открытых весах моделей.
GLM-5-Turbo и GLM-5 заложили основу
Компания Z.AI недавно выпустила GLM-5-Turbo, текстовую модель, разработанную для агентской платформы OpenClaw, которая улучшает вызовы инструментов, следование инструкциям, задачи с контролем времени и постоянным выполнением, а также выполнение длинных цепочек задач.
Одновременно с этим компания Z.AI представила ZClawBench, комплексный тест производительности для задач, выполняемых агентами в экосистеме OpenClaw. Результаты показывают, что GLM-5-Turbo значительно превосходит своего предшественника, GLM-5, и опережает Claude Opus 4.6, Gemini 3.1 Pro, MiniMax M2.5 и Kimi K2.5 в нескольких категориях. Использование навыков в экосистеме OpenClaw за короткое время выросло с 26 до 45 процентов, что, по словам Z.AI, свидетельствует о растущей популярности модульных систем для агентов.
До этого, в середине февраля, компания Zhipu AI выпустила GLM-5: модель с открытым исходным кодом, имеющую 744 миллиарда параметров и распространяемую под лицензией MIT, которая, по словам компании, конкурирует с Claude Opus 4.5 и GPT-5.2 в задачах программирования и работы с агентами. GLM-5 показала результат 77,8% в SWE-bench Verified, немного уступив Claude Opus 4.5 с 80,9%. Модель также работает на китайских чипах от Huawei и других производителей, а также на графических процессорах Nvidia, что является существенным преимуществом, учитывая экспортные ограничения США.
Компания Alibaba использует аналогичный подход с моделью Qwen3.5-Omni , которая обрабатывает текст, изображения, аудио и видео. Как и GLM-5V-Turbo, она генерирует код на основе визуального ввода, но также принимает голосовые инструкции.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
