Комментарии 18
Очень восторженная статья, понятно почему, но идеализировать новый инструмент тоже не стоит. Некоторые расхождения, которые я отметил:
Статье не противоречит, но google первым представил мультимодальную работу с картинками в чате на базе Gemini 2.0 Flash Experimental (можно найти в Google AI Studio бесплатно) - в отличии от 4o работа с картинкой ведется моделью попиксельно - детали входного изображения не искажаются при редактировании, но по качеству она несколько хуже.
Надписи будут даны ровно в том виде, как вы просите
- лучше чем 4o никто из моделей не работает, но нет, надписи не всегда будут ровно в нужном виде, иероглифы вполне присутствуют на больших объемах или в сложных условиях (перекрытие текста другими объектами и тп).Та же картинка, просто в другом ракурсе
- нет, не та же картинка, расположение объектов иное. И это в целом проблема 4o - даже в режиме редактирования перерисовывается вся картинка, даже при использовании режима выделения. Не так сильно, как было раньше в DALLE из-за мультимодальности, но все же.Чем больше итераций редактирования картинки - тем дальше она от оригинала, если это иллюстрация, а не фото - она будет упрощаться и терять детали.
Все это ни в коем случае не отменяет большого скачка в качестве, ясно становится понятно, что будущее генеративного ии - в мультимодальности.
Ниже примеры:
Скрытый текст






Как было замечено выше, зачем-то перерисовывает всё изображение, фотошоп так не делает. После четвертой попытки так и не смог нарисовать, то о чём просили, зато всё остальное изображение ушло в пастеризацию цветов, помимо этого стали появлятся детали о которых не просили, надписи то исчезают, то появляются уже совсем другие, видны слияния в шрифтах. Так что пока ещё просто забава, требующая контроля, хотя и с большими возможностями прикладного применения.
А оно может взять готовое меню по картинке и просто добавить деталей, пунктов, не меняя всё? Ну или изменить 3юю позицию снизу.
Ну или проще - я шел по бульвару, увидел модно одетого паренька. Хочу взять моё фото и чтобы он меня одел так же. Фото при этом не должно меняться (фон, поза, лицо)- это должен быть Я. Иначе зачем оно?
не меняя всё
нет, все изображение будет перерисовано, в лучшую или худшую сторону - как повезет
Фото при этом не должно меняться (фон, поза, лицо) - это должен быть Я
нет, причина та же + с лицами неизвестных людей (которые модель не видела тысячами при тренировке) работает плохо, особенно если это средний или дальний план. Переносить 1 в 1 это скоре про Gemini 2.0 Flash Experimental, он может лук (одежду) попиксельно перерисовать, оставив все остальное без изменений, но качество хуже
Почему-то совсем не освещена конкретная киллер-фича по сравнению с другими моделями - возможность нарисовать эскиз или прототип, загрузить в модель его картинку и попросить создать изображение на его основе.
Лично для меня это оказалось самым удобным способом получить то, что я хочу, вот первый эксперимент.


Этот промпт ввел ChatGPT в ступор:
"нарисуй очень худую женщину с лицом панды, которая стоит, опираясь правой рукой о дерево"
Может, там действительно обнаженка получалась -- оно показывало какой-то серый размытый фон, ничего не разглядеть было. У вас получилось практически то, что я и хотел получить )))
ChatGPT настолько зацензуренный, что там невозможно даже отредактировать старую фотографию бабушки, не говоря уже о своих детских фотках. Дебилы, бля. Правильно на них господь Трампа с Маском наслал!
А полный стакан вина может нарисовать?
У меня традиционный тест для рисовалок - как она нарисует "идеальную сетку"? Идеальной?
Ого, неожиданно. Ракурс-перспективу он сам выбрал или было в промте? Все нейросетки обычно рисовали сетку перед "камерой":
Перфекционистам не нажимать!

Честно говоря я не понял о чем речь и сначала попросил объяснить, а потом нарисовать. Если рисовать чисто по промпту - рисует примерно как у вас, только ровнее.
Скрытый текст


как она нарисует "идеальную сетку"?
Почему не хотите сразу дать нормальное ТЗ: "нарисуй ровную прямоугольную решетку"?
А вместо этого "нарисуй то, что я вижу в своей голове".
ChatGPT получил новый генератор изображений и превратился в Фотошоп на стероидах