Комментарии 8
В другом примере ее попросили удалить с изображения только сидящих людей, но также удалили стоящие фигуры на заднем плане.
Насколько я понимаю, проблема не в этом: на заднем плане как стояли, так и стоят — но другие люди. Для семейной фотографии — низачот.
P. S. «Generate image of a man chasing by a shark.» МГИМО, говоришь, финишд?
На картинке с коняшкой и львом: что такое loin?

GPT-4o рисует шикарные картинки с русским текстом, для бытовых задач — просто находка!
Ну, у художников, да и гуманитариев вообще та же проблема.
Эти случаи указывают на то, что модель испытывает трудности с семантически точными модификациями. Задачи, требующие локализованных изменений и тонкой интерпретации визуального контента, часто приводят к непреднамеренным изменениям.
Вообще это очень сложная задача. Учитывая что генерация изображения является следствием расшумления (то есть случайным процессом), которым нельзя управлять напрямую.
То есть проще говоря, - тут требуется одновременно провести очень много сложных для ИИ задач, связанных и с анализом контекста изображения (с чем у ИИ традиционные проблемы), и с подготовкой промпта и параметров генерации. Мне кажется, что у сети вообще не было подобного обучения, чтобы она могла что-то подобное делать.
Меня больше забавляет другое. Генерируешь изображение с человеком. Выделяешь любую область, просишь изменить. ЧатГПТ начинает генерацию и в самом конце, когда изображение уже должно быть готово, он пишет, что не сможет это сделать, потому что на изображении лицо человека и он не может его оставить таким же из-за контентой политики OpenAi. То есть лицо, которое он сам же сгенерировал при повторной генерации уже нарушает правила...
Калифорнийский университет: GPT-4o создает красивые изображения, но проваливает тесты на логику