NeyroEntuziast 18 мар в 14:15

Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка

Простой

4 мин

11K

Искусственный интеллектБудущее здесьМашинное обучение *

Из песочницы

Перевод

Комментарии 30

grvelvet 18 мар в 14:26

Это что же, получается фотошоп отдыхает?

NeyroEntuziast 18 мар в 14:28

Пока не отдыхает, конечно. Качество еще есть куда улучшать, но все равно довольно неплохо

Alex-Freeman 18 мар в 15:25

Угу отдыхает) "Нарисуй максимально фотореалистично кота дайвера плавающего около кораллового рифа"

Я даже пьяный в фотошопе не сделал бы такое.

Напомнило

antonk42 18 мар в 15:40

Кот-дайвер от Gemini

Per_Ardua 18 мар в 21:55

Это Imagen3, сам gemini 2.0 пока на такое не способен

Hardcoin 19 мар в 07:56

Как вы это определили? В статье написано обратное.

Per_Ardua 19 мар в 15:44

На вашем скриншоте видно, что вы используете gemini. Gemini предоставляет не чистую модель, а модель + сервис, и использует под капотом Imagen3 чаще всего (но может использовать и другие модели, в зависимости от контекста (и, возможно, ещё какой скрытой логики)). aistudio в свою очередь предоставляет чистые модели, которые не генерирует картинки вовсе.

Как определил? Работаю с моделями gemini, как через api, так и напрямую в aistudio и gemini. Но и без этого никакой сложности в определении не вижу, если есть умения по использованию веб-поиска.

Hardcoin 19 мар в 16:20

Вы это пишете под статьей, где буквально написано «Gemini 2.0 Flash больше не зависит от Imagen 3»

Гугл в анонсе прямо говорит, «native image generation”.

Они выпустили экспериментальную модель, где не используют Imagen 3, прямо это говорят. Человек написал статью про эту модель, без Imagen. Вы зашли в комментарии, вам сказали, что это генерация без Imagen.

Но ведь вы «работаете с моделями», «можете пользоваться поиском». Так найдите анонс и прочитайте, разве проблема?

Per_Ardua 19 мар в 17:34

Вас забанили в поисковике? Или может вы не видели на какой комментарий я отвечал изначально? Ещё раз повторю: на скриншоте - сервис gemini, и он использует imagen3. Если вам сложно разобраться в теме самому - то дарю вам пруф:

Знаю, в это сложно поверить, но сколько бы минусов вы не поставили под комментами, более правым вы от этого не станете.

arse00n 19 мар в 22:07

Это другой сервис и другая модель...

То о чем идёт речь находится по адресу aistudio.google.com модель gemini 2.0 flash experimental и она рисует самостоятельно без помощи imagen3

Per_Ardua 20 мар в 05:05

Вот только если вы посмотрите на скриншот в комментарии выше (на которой и был дан ответ), то увидите, что там как раз-таки сервис gemini. И именно модель gemini-2.0-flash, которая не способна генерировать и редактировать изображения. О чём я и сообщил комментатору.

Пруфы того, что в сервисе gemini используется Imagen3 я предоставил. Если есть обратные пруфы - предоставьте пожалуйста (предлагаю не пропускать конструктивную часть диалога, как это сделал предыдущий комментатор).

Per_Ardua 19 мар в 15:31

Ничего себе, за правдивый коммент по делу, без негатива и оскорблений, получил минус в карму. Хабровская справедливость.

LeToan 19 мар в 13:47

Картинка, кстати, не соответствует формулировке запроса. Но, подозреваю, соответствует тому, что хотели получить.

sokolov_aa 18 мар в 19:51

Часто помогает, если правильно промпт писать

Per_Ardua 18 мар в 21:53

Глаза у котов - это пока отдельный вид искусства:

pon007 18 мар в 14:48

Вот если к нему не по api доступ получать, а у себя развернуть...

NeyroEntuziast 18 мар в 14:50

К сожалению, это не модель с открытым исходным кодом...

positroid 18 мар в 14:50

Без черрипика в статье не обошлось, конечно, но все равно довольно интересная штука. OpenAI такое показывали в мае 2024, но так и не зарелизили. Есть слухи, что готовят в ближайшее время.

Выглядит так, что будущее generative ai for images в мультимодальных моделях, а не отдельных диффузионных с прикрученной llm / controlnet / etc.

Примеры с наложением текста на лису

NeyroEntuziast 18 мар в 15:20

Я наблюдаю за этой ИИ-гонкой больше года, и только кажется, что кто-то отстает, как он выпускает более крутой продукт, и так по очереди

positroid 26 мар в 08:12

Ну, собственно, ответочка от openAI. Чуть меняет оригинальное фото, но прекрасно работает с кириллицей и большими объемами текста (не черрипикал, можно на уровне промта или количеством генераций думаю можно и относительно длинные тексты привести в порядок):

Скрытый текст

NeyroEntuziast 26 мар в 08:32

Ответочек этих будет еще много - ии-генераторы развиваются постоянно )

abutorin 18 мар в 14:54

Это то чего не хватало прошлым "рисовалкам". Все наши подходы к ним заканчивались тем что всегда получалось чуть чуть не то что нужно и приходилось отказываться от генерации картинок. Если наконец можно будет делать корректировки на полученной картинке, то услуги дизайнера для рисования уйдут совсем в прошлое.

NeyroEntuziast 18 мар в 15:19

Думаю, да, но время покажет. Как минимум ИИ будут хорошим подспорьем в работе дизайнеров и снизят трудозатраты

Hardcoin 19 мар в 08:07

Есть ровно ноль оснований считать, что развитие ИИ уже достигло пика. Весь вопрос не в том, будет ли, а как быстро

Vedomir 18 мар в 15:09

Звучит как крайне полезная и нужная вещь, но как там с санкционными ограничениями? На русскоязычном сайте такая информация, увы, полезна почти всегда.

NeyroEntuziast 18 мар в 15:18

Да в принципе аналогично многим ИИ-сервисам забугорным ). Без танцев с бубном не у всех получится )

Vedomir 18 мар в 15:23

Краткий обзор того, какие именно танцы с бубном нужны, был бы очень полезен в такого рода статьях.

Ваш комментарий напомнил мне бородатый анекдот про путешественника на воздушном шаре, которого унесло штормом и он спускается и спрашивает человека не земле - где я нахожусь - и получает ответ - на воздушном шаре.

NeyroEntuziast 18 мар в 15:28

Дело в том, что я сам не из России, поэтому инструментом пользуюсь без проблем. К тому же хабр - ресурс с опытными специалистами, и мне не раз указывали на то, что разжевывать в миллионный раз то, что уже давно разжевано, не нужно, все и так хорошо разбираются )

sokolov_aa 18 мар в 19:52

Все уже давно описано много раз, очевидные вещи.

Timmek 9 часов назад

Не работает 😭

Зарегистрируйтесь на Хабре, чтобы оставить комментарий