Комментарии 30
Это что же, получается фотошоп отдыхает?
Пока не отдыхает, конечно. Качество еще есть куда улучшать, но все равно довольно неплохо
Угу отдыхает) "Нарисуй максимально фотореалистично кота дайвера плавающего около кораллового рифа"
Я даже пьяный в фотошопе не сделал бы такое.

Напомнило

Кот-дайвер от Gemini

Это Imagen3, сам gemini 2.0 пока на такое не способен
Как вы это определили? В статье написано обратное.
На вашем скриншоте видно, что вы используете gemini. Gemini предоставляет не чистую модель, а модель + сервис, и использует под капотом Imagen3 чаще всего (но может использовать и другие модели, в зависимости от контекста (и, возможно, ещё какой скрытой логики)). aistudio в свою очередь предоставляет чистые модели, которые не генерирует картинки вовсе.
Как определил? Работаю с моделями gemini, как через api, так и напрямую в aistudio и gemini. Но и без этого никакой сложности в определении не вижу, если есть умения по использованию веб-поиска.
Вы это пишете под статьей, где буквально написано «Gemini 2.0 Flash больше не зависит от Imagen 3»
Гугл в анонсе прямо говорит, «native image generation”.
Они выпустили экспериментальную модель, где не используют Imagen 3, прямо это говорят. Человек написал статью про эту модель, без Imagen. Вы зашли в комментарии, вам сказали, что это генерация без Imagen.
Но ведь вы «работаете с моделями», «можете пользоваться поиском». Так найдите анонс и прочитайте, разве проблема?
Вас забанили в поисковике? Или может вы не видели на какой комментарий я отвечал изначально? Ещё раз повторю: на скриншоте - сервис gemini, и он использует imagen3. Если вам сложно разобраться в теме самому - то дарю вам пруф:

Знаю, в это сложно поверить, но сколько бы минусов вы не поставили под комментами, более правым вы от этого не станете.
Это другой сервис и другая модель...
То о чем идёт речь находится по адресу aistudio.google.com модель gemini 2.0 flash experimental и она рисует самостоятельно без помощи imagen3
Вот только если вы посмотрите на скриншот в комментарии выше (на которой и был дан ответ), то увидите, что там как раз-таки сервис gemini. И именно модель gemini-2.0-flash, которая не способна генерировать и редактировать изображения. О чём я и сообщил комментатору.
Пруфы того, что в сервисе gemini используется Imagen3 я предоставил. Если есть обратные пруфы - предоставьте пожалуйста (предлагаю не пропускать конструктивную часть диалога, как это сделал предыдущий комментатор).
Ничего себе, за правдивый коммент по делу, без негатива и оскорблений, получил минус в карму. Хабровская справедливость.
Картинка, кстати, не соответствует формулировке запроса. Но, подозреваю, соответствует тому, что хотели получить.
Часто помогает, если правильно промпт писать
Глаза у котов - это пока отдельный вид искусства:

Вот если к нему не по api доступ получать, а у себя развернуть...
Без черрипика в статье не обошлось, конечно, но все равно довольно интересная штука. OpenAI такое показывали в мае 2024, но так и не зарелизили. Есть слухи, что готовят в ближайшее время.
Выглядит так, что будущее generative ai for images в мультимодальных моделях, а не отдельных диффузионных с прикрученной llm / controlnet / etc.
Примеры с наложением текста на лису



Я наблюдаю за этой ИИ-гонкой больше года, и только кажется, что кто-то отстает, как он выпускает более крутой продукт, и так по очереди
Ну, собственно, ответочка от openAI. Чуть меняет оригинальное фото, но прекрасно работает с кириллицей и большими объемами текста (не черрипикал, можно на уровне промта или количеством генераций думаю можно и относительно длинные тексты привести в порядок):
Скрытый текст


Это то чего не хватало прошлым "рисовалкам". Все наши подходы к ним заканчивались тем что всегда получалось чуть чуть не то что нужно и приходилось отказываться от генерации картинок. Если наконец можно будет делать корректировки на полученной картинке, то услуги дизайнера для рисования уйдут совсем в прошлое.
Звучит как крайне полезная и нужная вещь, но как там с санкционными ограничениями? На русскоязычном сайте такая информация, увы, полезна почти всегда.
Да в принципе аналогично многим ИИ-сервисам забугорным ). Без танцев с бубном не у всех получится )
Краткий обзор того, какие именно танцы с бубном нужны, был бы очень полезен в такого рода статьях.
Ваш комментарий напомнил мне бородатый анекдот про путешественника на воздушном шаре, которого унесло штормом и он спускается и спрашивает человека не земле - где я нахожусь - и получает ответ - на воздушном шаре.
Дело в том, что я сам не из России, поэтому инструментом пользуюсь без проблем. К тому же хабр - ресурс с опытными специалистами, и мне не раз указывали на то, что разжевывать в миллионный раз то, что уже давно разжевано, не нужно, все и так хорошо разбираются )
Все уже давно описано много раз, очевидные вещи.
Но только звучит. Цензура там кошмарная, если на фотке есть ребенок то это почти всегда отказ. Качество часто хромает на обе ноги.
В рф легкодоступно потому что раздается через апи, любой может взять и засунуть в своё приложение/сайт.
Если бы не цензура можно было бы сделать генератор мемов но фигвам.


Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка