Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с использованием естественного языка / Хабр

Модель Gemini 2.0 Flash от Google теперь позволяет редактировать изображения с помощью естественного языка. В отличие от более ранних мультимодальных систем, в которых использовалось сочетание отдельных моделей (например, использование языковой модели вместе с Imagen 3 для генерации изображений), Gemini 2.0 Flash работает в мультимодальном режиме, генерируя изображения непосредственно в той же системе, которая обрабатывает текст. Это устраняет необходимость в межмодельном взаимодействии, что значительно снижает время ожидания.

Поскольку Gemini 2.0 Flash больше не зависит от Imagen 3, у нее более быстрый отклик и более плавное взаимодействие. Кроме того, вы даже можете добавлять длинный текст прямо на изображения!

Посмотрите на этот пример, где я превратил генерального директора Google Deepmind, Дэмиса Хассабиса, в длинноволосого чувака.

Вот еще один пример того, как Gemini добавляет шоколадную глазурь к обычным круассанам.

Это поразительно, потому что ни один аспект исходного изображения не был изменен, за исключением добавленной шоколадной глазури, которая, кстати, выглядит невероятно реалистично.

Вот как это работает

Чтобы начать работу, зайдите в Google AI Studio, войдите под своим аккаунтом Google и выберите модель Gemini 2.0 Flash Experimental. Убедитесь также, что для формата вывода установлено значение «Images and text».

Затем загрузите файл с изображением, нажав на кнопку «+» в правом нижнем углу поля для ввода промпта. В качестве иллюстрации - забавная правка, которую я сделал для изображения лисы. Я одел на нее пуховик, потому что ей может быть холодно в ледяных горах.

Как видите, Gemini позволяет точно направить ИИ на изменение только определенных частей изображения. Она не генерирует полностью новое изображение с нуля, а изменяет только то, что вы явно указали с помощью промпта.

По сравнению с такими генераторами изображений, как Grok 3, Gemini 2.0 Flash имеет явное преимущество, когда речь идет о точности и согласованности. В Grok 3, если вы создаете изображение, а затем запрашиваете его редактирование, ИИ создает совершенно новое изображение вместо того, чтобы в точности обновить оригинал.

Чтобы лучше проиллюстрировать, что я имею в виду, давайте воспользуемся Grok для создания примера изображения.

Промпт 1: An image of a rounded perfume bottle with amber color liquid inside, put on a brown table and ambient lighting
Промпт 2: Add text “Generative AI”

Пример редактирования изображения в Grok

Понимаете, о чем я?

Хотя конечный результат может выглядеть похоже, вы часто будете замечать странные различия или неожиданные элементы, появляющиеся на изображении. Gemini же позволяет направлять ИИ непосредственно на те части изображения, которые вы хотите изменить. Кроме того, вы можете продолжать вносить точные изменения в одно и то же изображение, не нарушая его целостност��.

Gemini 2.0 Flash Experimental также способен добавлять текст на фотографии, посмотрите этот пример, где я попросил его добавить слово «Generative AI Publication».

Буквы четкие, разборчивые и хорошо расположены. Судя по этому результату, Gemini может похвастаться лучшими способностями по рендерингу текста среди существующих моделей изображений - конкуренты, такие как Midjourney и Flux, не достигают такого уровня четкости и точности.

Практические примеры и варианты использования

Позвольте мне показать вам несколько самых крутых примеров, которые я нашел в интернете, где редактирование изображений с помощью разговорной речи по-настоящему впечатляет. Посмотрите на пример ниже, где пользователь X A E A E использовал Gemini 2.0 Flash для раскрашивания черно-белой манги.

Конечный результат выглядит невероятно хорошо сделанным, в нем даже добавлены элементы, которые не были упомянуты в промпте, например облака на заднем плане. Ничто в конечном изображении не выдает в нем результат работы ИИ.

Еще один классный пример использования, показанный пользователем X Kurawa Dono, - объединение двух изображений. Вы можете загрузить изображение продукта и модели, а затем попросить ИИ сделать так, чтобы модель держала продукт.

Если вы продаете товары через Интернет, этот метод значительно упростит ваш рабочий процесс, избавив от необходимости проводить длительные фотосессии или вручную редактировать изображения в Photoshop.

Вот еще один способ: вы можете сделать перенос стиля, загрузив любое изображение и скопировав его стиль для создания нового. Этот способ отлично продемонстрировал в своем посте пользователь X Роберт Риачи.

Перенос стиля не является чем-то новым в мире ИИ-генераторов изображений, но делать это с использованием естественного языка - совершенно новый и интересный опыт.

Честно говоря, я думал, что Google уже отстает в ИИ-гонке. OpenAI недавно выпустила новые интересные продукты, такие как GPT-4.5 и свой совершенно новый AI SDK. Тем временем в Китае произошел очередной «момент DeepSeek», когда был выпущен ManusAI, и по сравнению с этим последние успехи Google кажутся не такими впечатляющими.

Но я ошибался.

Google снова в гонке. Выпуск Gemma 3 27B и Gemini 2.0 Flash с нативной мультимодальной генерацией изображений в один и тот же день невероятно впечатляет.

Меня поразила способность Gemini изменять изображения непосредственно с помощью промптов, написанных на естественном языке. По сути, это рисование на стероидах, предлагающее такой уровень точности и гибкости, какого я еще не видел.

Как ИИ-энтузиаст и разработчик, регулярно работающий с ИИ-инструментами, я не могу не испытывать восторга от всех возможностей, которые открывают эти новые модели. Возможности для творчества и инноваций огромны.

Честно говоря, я не могу дождаться, когда получу доступ к API и начну экспериментировать - создавать новые, интересные и, надеюсь, полезные вещи. А пока я настоятельно рекомендую вам попробовать Gemini 2.0 Flash Experimental, поиграть с функциями и найти свои собственные креативные варианты использования.

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений - я стараюсь делиться только полезной информацией.