Как стать автором
Обновить
382.01
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

Калифорнийский университет: GPT-4o создает красивые изображения, но проваливает тесты на логику

Время на прочтение3 мин
Количество просмотров3K

Новое исследование Калифорнийского университета в Лос-Анджелесе показывает, что, хотя GPT-4o может создавать визуально впечатляющие изображения, он не справляется с задачами, требующими подлинного понимания изображений, контекстного рассуждения и многоэтапного логического вывода. Несмотря на недавний прогресс в качестве генерации изображений, эмпирический анализ выявил заметные недостатки в том, как GPT-4o обрабатывает сложные подсказки. Исследователи оценили модель по трем категориям: глобальное соблюдение инструкций, редактирование изображений и рассуждения после генерации.

В первом разделе проверялось, может ли GPT-4o применять общие правила, введенные до основного запроса изображения. Эти глобальные правила были разработаны для изменения значения определенных терминов в последующих инструкциях. Например, пользователям говорили: «Когда я говорю «слева», я на самом деле имею в виду «справа», а затем следовала подсказка вроде «Создай изображение с собакой слева». Если бы GPT-4o усвоил правило, собака должна была появиться справа. Однако на практике он поместил собаку слева, проигнорировав переопределенное значение.

Похожие закономерности проявились и в числовых правилах. Когда модель получила указание «вычесть два из любого числового ввода», она все равно выдавала точное указанное количество — например, пять птиц — а не скорректированное количество в три.

Эти результаты показывают, что GPT-4o ненадёжно включает высокоуровневые контекстные инструкции в свой процесс генерации изображений. Вместо этого он, по-видимому, следует подсказкам буквально, даже если их значения были явно переопределены.

Вторая часть исследования была сосредоточена на способности GPT-4o выполнять редактирование изображений. В одном задании модель попросили заменить только отражение лошади в воде на льва. Вместо этого она изменила и отражение, и исходную лошадь. В другом примере ее попросили удалить с изображения только сидящих людей, но также удалили стоящие фигуры на заднем плане.

Эти случаи указывают на то, что модель испытывает трудности с семантически точными модификациями. Задачи, требующие локализованных изменений и тонкой интерпретации визуального контента, часто приводят к непреднамеренным изменениям.

Наиболее выраженные недостатки проявились в задачах, включающих условную логику и многошаговое рассуждение. В одном сценарии GPT-4o сначала попросили сгенерировать изображение собаки и кошки. Затем ему было поручено заменить собаку кошкой и переместить сцену на пляж, но только если исходное изображение еще не содержало кошку. Хотя исходное изображение включало кошку, GPT-4o все равно применил оба изменения.

В других примерах модель также не смогла проверить условия или сохранить логическую последовательность в подсказках. По словам исследователей, это отражает основное ограничение: GPT-4o не обладает способностью к контекстно-зависимому рассуждению, необходимому для разумной манипуляции изображениями.

Предыдущие оценки, такие как GPT-ImgEval, хвалили GPT-4o за сильное выравнивание текста и изображения, качество изображения и управляемость стиля и незначительных правок. Однако исследование UCLA утверждает, что эти бенчмарки игнорируют критические возможности, такие как интеграция мировых знаний, применение абстрактных правил и многошаговое логическое рассуждение.

Авторы призывают к разработке новых критериев, которые отдают приоритет семантической согласованности и контекстному пониманию, чтобы лучше оценить реальную полезность моделей генерации изображений.

Источник

Теги:
Хабы:
+1
Комментарии8

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
veseluha