Китайская Z.ai (бывшая Zhipu AI) выпустила GLM-5V-Turbo — свою первую мультимодальную кодинг-модель. Она принимает на вход изображения, видео и текст, а на выходе генерирует рабочий код. Модель доступна через API ($1,2/$4 за 1M входных/выходных токенов) и бесплатно в веб-интерфейсе chat.z.ai.

Главная идея — замкнуть цикл "увидел → спланировал → написал код". GLM-5V-Turbo понимает дизайн-макеты, скриншоты и веб-интерфейсы, после чего генерирует готовый фронтенд-проект. В связке с Claude Code модель умеет самостоятельно исследовать сайты: обходить страницы, собирать визуальные элементы и воспроизводить их в коде — Z.ai называет это режимом URL = Code.

На собственных замерах компании модель обходит Claude Opus 4.6 в 9 из 14 мультимодальных тестов. Самый показательный разрыв — на Design2Code (воспроизведение макета в коде): 94,8 у GLM-5V-Turbo против 77,3 у Claude. Модель также лидирует в тестах GUI-агентов: AndroidWorld (75,7 против 62,0) и WebVoyager (88,5 против 88,0). При этом в чистом текстовом кодинге Claude Opus 4.6 по-прежнему впереди по всем позициям — от бэкенда до исследования репозиториев.

Технически Z.ai описывает четыре ключевых улучшения: новый визуальный кодировщик CogViT, обучение с подкреплением сразу на 30+ типах задач (от STEM до GUI-агентов), систему генерации агентных данных для обучения и расширенный мультимодальный тулчейн — модель умеет делать скриншоты, рисовать ограничивающие рамки и читать веб-страницы с картинками. Вместе с моделью вышел набор из 10 встроенных навыков (Skills): от генерации подписей к изображениям и скрининга резюме до конвертации PDF в презентации и анализа акций.

Релиз продолжает стратегию Z.ai по выпуску специализированных вариантов флагманской GLM-5: в марте вышла текстовая GLM-5-Turbo для агентных задач, в конце марта — обновлённая GLM-5.1 для кодинга. GLM-5V-Turbo добавляет к этой линейке зрение — и напрямую конкурирует с мультимодальными возможностями Claude, Gemini и Kimi K2.5.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.