Zhipu AI выпустила GLM-Image — первую open source модель генерации изображений промышленного уровня (термин создателей модели), объединяющую авторегрессивную архитектуру с диффузионным декодером. Веса доступны на HuggingFace, код — на GitHub, лицензия MIT.

Главная проблема диффузионных моделей вроде Stable Diffusion или FLUX — они плохо следуют сложным инструкциям и часто "ломают" текст на картинках, особенно длинный. GLM-Image решает это разделением труда: авторегрессивный модуль на 9 млрд параметров (на базе GLM-4) сначала выстраивает "смысловой каркас" изображения из семантических токенов, а затем диффузионный декодер на 7 млрд параметров (на базе CogView4) прорисовывает детали. За рендеринг текста отвечает отдельный модуль Glyph-byT5, который кодирует символы посимвольно.

Результат: на бенчмарке CVTG-2k модель показала 91% точности в генерации текста — это лучше, чем у GPT Image 1 (86%) и всех остальных открытых моделей. На китайском тексте разрыв еще больше: 97.88% у GLM-Image против 61.9% у решения OpenAI.

В общей эстетике модель держится на уровне топовых конкурентов, но не лидирует — первые места занимают Seedream 4.5 и Nano Banana Pro. Для локального запуска понадобится серьезное железо: суммарно 16 млрд параметров требуют около 40 GB видеопамяти в полной точности, хотя с квантизацией можно уложиться в RTX 4090.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.