Новое исследование Калифорнийского университета в Лос-Анджелесе показывает, что, хотя GPT-4o может создавать визуально впечатляющие изображения, он не справляется с задачами, требующими подлинного понимания изображений, контекстного рассуждения и многоэтапного логического вывода. Несмотря на недавний прогресс в качестве генерации изображений, эмпирический анализ выявил заметные недостатки в том, как GPT-4o обрабатывает сложные подсказки. Исследователи оценили модель по трем категориям: глобальное соблюдение инструкций, редактирование изображений и рассуждения после генерации.

В первом разделе проверялось, может ли GPT-4o применять общие правила, введенные до основного запроса изображения. Эти глобальные правила были разработаны для изменения значения определенных терминов в последующих инструкциях. Например, пользователям говорили: «Когда я говорю «слева», я на самом деле имею в виду «справа», а затем следовала подсказка вроде «Создай изображение с собакой слева». Если бы GPT-4o усвоил правило, собака должна была появиться справа. Однако на практике он поместил собаку слева, проигнорировав переопределенное значение.
Похожие закономерности проявились и в числовых правилах. Когда модель получила указание «вычесть два из любого числового ввода», она все равно выдавала точное указанное количество — например, пять птиц — а не скорректированное количество в три.
Эти результаты показывают, что GPT-4o ненадёжно включает высокоуровневые контекстные инструкции в свой процесс генерации изображений. Вместо этого он, по-видимому, следует подсказкам буквально, даже если их значения были явно переопределены.

Вторая часть исследования была сосредоточена на способности GPT-4o выполнять редактирование изображений. В одном задании модель попросили заменить только отражение лошади в воде на льва. Вместо этого она изменила и отражение, и исходную лошадь. В другом примере ее попросили удалить с изображения только сидящих людей, но также удалили стоящие фигуры на заднем плане.
Эти случаи указывают на то, что модель испытывает трудности с семантически точными модификациями. Задачи, требующие локализованных изменений и тонкой интерпретации визуального контента, часто приводят к непреднамеренным изменениям.
Наиболее выраженные недостатки проявились в задачах, включающих условную логику и многошаговое рассуждение. В одном сценарии GPT-4o сначала попросили сгенерировать изображение собаки и кошки. Затем ему было поручено заменить собаку кошкой и переместить сцену на пляж, но только если исходное изображение еще не содержало кошку. Хотя исходное изображение включало кошку, GPT-4o все равно применил оба изменения.

В других примерах модель также не смогла проверить условия или сохранить логическую последовательность в подсказках. По словам исследователей, это отражает основное ограничение: GPT-4o не обладает способностью к контекстно-зависимому рассуждению, необходимому для разумной манипуляции изображениями.
Предыдущие оценки, такие как GPT-ImgEval, хвалили GPT-4o за сильное выравнивание текста и изображения, качество изображения и управляемость стиля и незначительных правок. Однако исследование UCLA утверждает, что эти бенчмарки игнорируют критические возможности, такие как интеграция мировых знаний, применение абстрактных правил и многошаговое логическое рассуждение.
Авторы призывают к разработке новых критериев, которые отдают приоритет семантической согласованности и контекстному пониманию, чтобы лучше оценить реальную полезность моделей генерации изображений.