Xcom-shop 8 апр в 09:37

ChatGPT получил новый генератор изображений и превратился в Фотошоп на стероидах

6 мин

41K

Блог компании Группа компаний X-ComИскусственный интеллект

+21

Комментарии 18

positroid 8 апр в 12:37

Очень восторженная статья, понятно почему, но идеализировать новый инструмент тоже не стоит. Некоторые расхождения, которые я отметил:

Статье не противоречит, но google первым представил мультимодальную работу с картинками в чате на базе Gemini 2.0 Flash Experimental (можно найти в Google AI Studio бесплатно) - в отличии от 4o работа с картинкой ведется моделью попиксельно - детали входного изображения не искажаются при редактировании, но по качеству она несколько хуже.
Надписи будут даны ровно в том виде, как вы просите - лучше чем 4o никто из моделей не работает, но нет, надписи не всегда будут ровно в нужном виде, иероглифы вполне присутствуют на больших объемах или в сложных условиях (перекрытие текста другими объектами и тп).
Та же картинка, просто в другом ракурсе - нет, не та же картинка, расположение объектов иное. И это в целом проблема 4o - даже в режиме редактирования перерисовывается вся картинка, даже при использовании режима выделения. Не так сильно, как было раньше в DALLE из-за мультимодальности, но все же.
Чем больше итераций редактирования картинки - тем дальше она от оригинала, если это иллюстрация, а не фото - она будет упрощаться и терять детали.

Все это ни в коем случае не отменяет большого скачка в качестве, ясно становится понятно, что будущее генеративного ии - в мультимодальности.

Ниже примеры:

Скрытый текст

вся картинка перерисовывается полностью, причем здесь еще и артефакт в виде вопросительного знака возник

Grogcm20 8 апр в 15:55

Как было замечено выше, зачем-то перерисовывает всё изображение, фотошоп так не делает. После четвертой попытки так и не смог нарисовать, то о чём просили, зато всё остальное изображение ушло в пастеризацию цветов, помимо этого стали появлятся детали о которых не просили, надписи то исчезают, то появляются уже совсем другие, видны слияния в шрифтах. Так что пока ещё просто забава, требующая контроля, хотя и с большими возможностями прикладного применения.

gl_uk 8 апр в 18:38

А оно может взять готовое меню по картинке и просто добавить деталей, пунктов, не меняя всё? Ну или изменить 3юю позицию снизу.

Ну или проще - я шел по бульвару, увидел модно одетого паренька. Хочу взять моё фото и чтобы он меня одел так же. Фото при этом не должно меняться (фон, поза, лицо)- это должен быть Я. Иначе зачем оно?

positroid 9 апр в 11:00

не меняя всё

нет, все изображение будет перерисовано, в лучшую или худшую сторону - как повезет

Фото при этом не должно меняться (фон, поза, лицо) - это должен быть Я

нет, причина та же + с лицами неизвестных людей (которые модель не видела тысячами при тренировке) работает плохо, особенно если это средний или дальний план. Переносить 1 в 1 это скоре про Gemini 2.0 Flash Experimental, он может лук (одежду) попиксельно перерисовать, оставив все остальное без изменений, но качество хуже

Pitfil 9 апр в 04:41

Почему-то совсем не освещена конкретная киллер-фича по сравнению с другими моделями - возможность нарисовать эскиз или прототип, загрузить в модель его картинку и попросить создать изображение на его основе.

Лично для меня это оказалось самым удобным способом получить то, что я хочу, вот первый эксперимент.

Зараза даже три ноги нарисовал, как в моем ленивом наброске)

michael108 9 апр в 08:46

Этот промпт ввел ChatGPT в ступор:
"нарисуй очень худую женщину с лицом панды, которая стоит, опираясь правой рукой о дерево"

positroid 9 апр в 11:03

Не знаю что накрутили в ChatGPT (скорее всего на картинке получилась обнаженка), в sora.com (та же модель под капотом) генерируется вот так (было несколько топлесс вариантов, но я их сюда вставлять не буду, пожалуй):

michael108 9 апр в 13:28

Может, там действительно обнаженка получалась -- оно показывало какой-то серый размытый фон, ничего не разглядеть было. У вас получилось практически то, что я и хотел получить )))

barr1973 10 апр в 05:00

ChatGPT настолько зацензуренный, что там невозможно даже отредактировать старую фотографию бабушки, не говоря уже о своих детских фотках. Дебилы, бля. Правильно на них господь Трампа с Маском наслал!

rookie_cruekie 15 апр в 15:58

Пипец, точно. Всё время ссылается на какие-то внутренние правила, говно он, как редактор

Solaj 10 апр в 05:00

А полный стакан вина может нарисовать?

perfect_genius 10 апр в 21:15

У меня традиционный тест для рисовалок - как она нарисует "идеальную сетку"? Идеальной?

positroid 10 апр в 21:56

perfect_genius 10 апр в 23:03

Ого, неожиданно. Ракурс-перспективу он сам выбрал или было в промте? Все нейросетки обычно рисовали сетку перед "камерой":

Перфекционистам не нажимать!

positroid 11 апр в 08:00

Честно говоря я не понял о чем речь и сначала попросил объяснить, а потом нарисовать. Если рисовать чисто по промпту - рисует примерно как у вас, только ровнее.

Скрытый текст

perfect_genius 11 апр в 16:50

Прогресс большой, до идеала осталось совсем немного. Возможно, уже через год можно будет получать пиксельно идеальную сетку.

Можно её получить попросив сделать на Питоне, но предполагается, что сетку просит обычный человек, не знающий магических слов.

beeruser 14 апр в 12:17

как она нарисует "идеальную сетку"?

Почему не хотите сразу дать нормальное ТЗ: "нарисуй ровную прямоугольную решетку"?

А вместо этого "нарисуй то, что я вижу в своей голове".

perfect_genius 14 апр в 12:56

Потому что мы все делаем для обычных людей и тест предполагает, что нейросетку просит обычный человек.

Я бы вообще попросил нарисовать через код на Питоне, это лучший вариант пока.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий