Как стать автором
Обновить

Комментарии 18

Очень восторженная статья, понятно почему, но идеализировать новый инструмент тоже не стоит. Некоторые расхождения, которые я отметил:

  1. Статье не противоречит, но google первым представил мультимодальную работу с картинками в чате на базе Gemini 2.0 Flash Experimental (можно найти в Google AI Studio бесплатно) - в отличии от 4o работа с картинкой ведется моделью попиксельно - детали входного изображения не искажаются при редактировании, но по качеству она несколько хуже.

  2. Надписи будут даны ровно в том виде, как вы просите - лучше чем 4o никто из моделей не работает, но нет, надписи не всегда будут ровно в нужном виде, иероглифы вполне присутствуют на больших объемах или в сложных условиях (перекрытие текста другими объектами и тп).

  3. Та же картинка, просто в другом ракурсе - нет, не та же картинка, расположение объектов иное. И это в целом проблема 4o - даже в режиме редактирования перерисовывается вся картинка, даже при использовании режима выделения. Не так сильно, как было раньше в DALLE из-за мультимодальности, но все же.

  4. Чем больше итераций редактирования картинки - тем дальше она от оригинала, если это иллюстрация, а не фото - она будет упрощаться и терять детали.

Все это ни в коем случае не отменяет большого скачка в качестве, ясно становится понятно, что будущее генеративного ии - в мультимодальности.

Ниже примеры:

Скрытый текст
просим удалить объект в выделении
просим удалить объект в выделении
вся картинка перерисовывается полностью, причем здесь еще и артефакт в виде вопросительного знака возник
вся картинка перерисовывается полностью, причем здесь еще и артефакт в виде вопросительного знака возник
пример с кривым текстом
пример с кривым текстом
оригинальная иллюстрация
оригинальная иллюстрация
2 итерация
2 итерация
5 итерация
5 итерация

Как было замечено выше, зачем-то перерисовывает всё изображение, фотошоп так не делает. После четвертой попытки так и не смог нарисовать, то о чём просили, зато всё остальное изображение ушло в пастеризацию цветов, помимо этого стали появлятся детали о которых не просили, надписи то исчезают, то появляются уже совсем другие, видны слияния в шрифтах. Так что пока ещё просто забава, требующая контроля, хотя и с большими возможностями прикладного применения.

А оно может взять готовое меню по картинке и просто добавить деталей, пунктов, не меняя всё? Ну или изменить 3юю позицию снизу.

Ну или проще - я шел по бульвару, увидел модно одетого паренька. Хочу взять моё фото и чтобы он меня одел так же. Фото при этом не должно меняться (фон, поза, лицо)- это должен быть Я. Иначе зачем оно?

не меняя всё

нет, все изображение будет перерисовано, в лучшую или худшую сторону - как повезет

Фото при этом не должно меняться (фон, поза, лицо) - это должен быть Я

нет, причина та же + с лицами неизвестных людей (которые модель не видела тысячами при тренировке) работает плохо, особенно если это средний или дальний план. Переносить 1 в 1 это скоре про Gemini 2.0 Flash Experimental, он может лук (одежду) попиксельно перерисовать, оставив все остальное без изменений, но качество хуже

Почему-то совсем не освещена конкретная киллер-фича по сравнению с другими моделями - возможность нарисовать эскиз или прототип, загрузить в модель его картинку и попросить создать изображение на его основе.

Лично для меня это оказалось самым удобным способом получить то, что я хочу, вот первый эксперимент.

Зараза даже три ноги нарисовал, как в моем ленивом наброске)
Зараза даже три ноги нарисовал, как в моем ленивом наброске)

Этот промпт ввел ChatGPT в ступор:
"нарисуй очень худую женщину с лицом панды, которая стоит, опираясь правой рукой о дерево"

Не знаю что накрутили в ChatGPT (скорее всего на картинке получилась обнаженка), в sora.com (та же модель под капотом) генерируется вот так (было несколько топлесс вариантов, но я их сюда вставлять не буду, пожалуй):

Может, там действительно обнаженка получалась -- оно показывало какой-то серый размытый фон, ничего не разглядеть было. У вас получилось практически то, что я и хотел получить )))

ChatGPT настолько зацензуренный, что там невозможно даже отредактировать старую фотографию бабушки, не говоря уже о своих детских фотках. Дебилы, бля. Правильно на них господь Трампа с Маском наслал!

Пипец, точно. Всё время ссылается на какие-то внутренние правила, говно он, как редактор

А полный стакан вина может нарисовать?

У меня традиционный тест для рисовалок - как она нарисует "идеальную сетку"? Идеальной?

Ого, неожиданно. Ракурс-перспективу он сам выбрал или было в промте? Все нейросетки обычно рисовали сетку перед "камерой":

Перфекционистам не нажимать!

Честно говоря я не понял о чем речь и сначала попросил объяснить, а потом нарисовать. Если рисовать чисто по промпту - рисует примерно как у вас, только ровнее.

Скрытый текст
чисто промпт
чисто промпт

Прогресс большой, до идеала осталось совсем немного. Возможно, уже через год можно будет получать пиксельно идеальную сетку.

Можно её получить попросив сделать на Питоне, но предполагается, что сетку просит обычный человек, не знающий магических слов.

как она нарисует "идеальную сетку"? 

Почему не хотите сразу дать нормальное ТЗ: "нарисуй ровную прямоугольную решетку"?

А вместо этого "нарисуй то, что я вижу в своей голове".

Потому что мы все делаем для обычных людей и тест предполагает, что нейросетку просит обычный человек.

Я бы вообще попросил нарисовать через код на Питоне, это лучший вариант пока.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий