Xcom-shop 8 апр в 12:37

ChatGPT получил новый генератор изображений и превратился в Фотошоп на стероидах

6 мин

40K

Блог компании Группа компаний X-ComИскусственный интеллект

Вот и думайте: реальное это фото или его сгенерировала нейросеть

Не знаю, как вы, а я просто поражаюсь, как OpenAI удалось создать такой продвинутый чат-бот и в то же время встроить в него такую бездарную рисовалку. Несмотря на то что для некоторых сценариев DALL-E вполне подходит, чаще всего он выдает какой-то ужас: то буквы перепутает, то лишний палец пририсует, то еще что. В общем, грусть, да и только. Но тут OpenAI анонсировала новую функцию генерации изображений прямо в GPT-4o. "Да ладно, — думаю, — опять какое-нибудь косметическое обновление". Ох, как же я ошибался.

Что такое Images in ChatGPT и почему это революция

OpenAI наконец-то сделала то, о чем многие давно мечтали — встроила генерацию изображений непосредственно в языковую модель GPT-4.5 И это не просто очередное обновление DALL-E, а принципиально новый подход к созданию визуального контента.

В отличие от предыдущих версий, где DALL-E работал как надстройка, новая рисовалка интегрирована на уровне архитектуры самой модели. В самый, так сказать, базис. Благодаря этому GPT-4o теперь может создавать изображения, используя весь свой контекст, знания и понимание диалога.

Главное отличие от DALL-E и других генераторов изображений заключается в том, как именно создаются картинки. Если традиционные диффузионные модели работают, постепенно превращая шум в изображение, то GPT-4.5 использует свои мультимодальные возможности, чтобы генерировать визуальный контент примерно так же, как он генерирует текст — последовательно и с пониманием контекста. Это занимает больше времени (до двух минут на одно изображение), но результат того стоит.

Особенно круто, что в ChatGPT наконец-то решили проблему с некорректной генерацией текста на изображениях. Теперь вы можете создавать меню ресторанов, инфографику, презентации – и заказанную надпись не заменят иероглифы. Надписи будут даны ровно в том виде, как вы просите.

Что нужно, чтобы рисовать изображения в ChatGPT

В бесплатном тарифе по умолчанию пока работает DALL-E

Функция генерации изображений в ChatGPT уже доступна подписчикам тарифов Plus, Pro, Team. В бесплатной версии нововведение тоже работает, но с ограничением на генерацию 3 изображений в день.

Использовать генератор изображений проще простого — достаточно описать желаемую картинку в чате с GPT. Можно указать конкретные параметры, такие как соотношение сторон, точные цвета (ChatGPT даже понимает HEX-кодировку), стилистику и другие особенности, которые, по-вашему, должны быть представлены на рисунке. Например, система поддерживает как фотореалистичные изображения, так и стилизованные иллюстрации. Так что на выходе можно получить сгенерированную фотку или рисованную картинку.

Новые возможности ЧатГПТ в генерации изображений

Давайте посмотрим, на что генератор изображений ChatGPT способен в действительности.

Начнем с проверки генерации текста. Разработчики утверждают, что модель стала по-настоящему мультимодальной и теперь вы можете попросить его создавать фотореалистичные изображения с любыми символами, которые будут распознаны верно и точно.

Я попросил ChatGPT нарисовать доску с математическими примерами, и вот что у меня получилось:

Получилось не очень реалистично, но у меня и промпт был довольно примитивный

С фотореалистичностью, конечно, у ChatGPT кое-какие проблемы, но примеры сгенерированы правильно, единым шрифтом, и это плюс.

Для сравнения, вот что получилось у Grok:

Grok всегда предлагает сразу несколько изображений

У Grok картинки вышли более реалистичными, но, если присмотреться к написанному, то становится ясно, что там полная чушь.

Вторая уникальная особенность — многоэтапная генерация через естественный диалог. Поскольку генерация изображений теперь встроена непосредственно в GPT, вы можете уточнять и изменять изображения в процессе обычного разговора. Например, я попросил чат-бота нарисовать сосиску, а потом тут же попросил нарисовать ее же, но с другого ракурса.

Не идеально, но в целом неплохо

А, если нужно, можно добавить дополнительных деталей, например, вилку, кусочек хлеба или что-то другое.

Мои примеры, прямо скажем, получились не идеальными. Но и промпты, которыми я пользуюсь, не настолько проработаны, чтобы требовать от них лучшей результативности. В конце концов, главное для статьи – показать примеры того, как ChatGPT понимает контекст. А он-таки понимает.

Третье преимущество — точное следование сложным инструкциям. ChatGPT может создавать изображения с множеством объектов, каждый из которых имеет свои атрибуты. В то время как другие модели начинают путаться уже при 5-8 объектах, ChatGPT справляется с 15-20 разными элементами, сохраняя правильные цвета и формы для каждого.

При желании можно убрать с фото любой объект. Достаточно просто выделить его

Наконец, GPT может использовать загруженные изображения как визуальное вдохновение или видоизменять и настраивать их. Это открывает новые возможности для редактирования и модификации ваших картинок или фотографий. Например, можно попросить ЧатГПТ удалить со снимка лишние объекты. Просто укажите, что именно нужно убрать, и на выходе получите чистенькое фото. Получается правда хорошо.

Редактирование изображений: новый уровень контроля

Помимо генерации изображений с нуля, GPT предлагает мощные возможности для редактирования. Интерфейс редактора ChatGPT Images позволяет выбрать область изображения для изменения и описать желаемые правки в чате.

Это, конечно, не полноценный фотошоп, но кое-какие инструменты редактирования тут уже есть

Редактор доступен через клик на изображении, сгенерированном ChatGPT. В интерфейсе есть возможность выделить части изображения, которые вы хотите обновить, а также кнопки отмены и повтора действий.

Что особенно удобно — вы можете редактировать изображения в разговорном режиме, без необходимости использовать инструмент выделения. Достаточно описать желаемые изменения в текстовом поле внизу интерфейса редактора, но лично мне удобнее действовать руками.

ChatGPT также может модифицировать существующие изображения, включая фотографии с людьми, трансформируя их или "дорисовывая" детали, такие как объекты переднего или заднего плана. Эти возможности открывают огромные перспективы для дизайнеров, маркетологов и контент-мейкеров, которым больше не нужно переключаться между разными инструментами для создания и редактирования визуального контента.

Технические особенности и ограничения рисовалки ChatGPT

OpenAI не раскрывает, на чем учила свою рисовалку, но за ней явно стоит большой массив данных

За впечатляющими возможностями ChatGPT стоят серьезные технические инновации. Модель использует свою мультимодальную архитектуру для создания изображений, которая выгодно отличает ее от более традиционных моделей. Несмотря на то что в реалистичности она по-прежнему уступает Grok, решение OpenAI явно лучше понимает контекст и предлагает расширенные возможности редактирования.

Разработчики не раскрывают подробностей о данных, использованных для обучения модели, что вполне ожидаемо — компания традиционно держит такие детали в секрете. Однако можно предположить, что модель обучалась на огромном количестве изображений из интернета, включая, возможно, и защищенные авторским правом работы.

При этом все изображения, созданные с помощью ChatGPT, включают метаданные C2PA, которые позволяют идентифицировать их как сгенерированные искусственным интеллектом. Это важный шаг для обеспечения прозрачности в эпоху, когда отличить реальные фотографии от сгенерированных ИИ становится все сложнее.

Где использовать генерацию изображений ChatGPT: от дизайна до бизнеса

Новые возможности рисовалки ЧатГПТ открывают широкий спектр практических применений в различных сферах.

Для дизайнеров и маркетологов это инструмент для быстрого прототипирования. Теперь можно создавать макеты рекламных материалов, логотипов, меню ресторанов, приглашений и других визуальных элементов с точным текстом и детализацией. Особенно ценно, что все это можно делать в рамках одного диалога, итеративно улучшая результат.

В сфере образования нейросеть OpenAI может создавать наглядные материалы, иллюстрирующие сложные концепции. Представьте, как легко теперь объяснить научные принципы через визуализации, созданные по вашему описанию, с точными подписями и обозначениями.

В области разработки игр и приложений новый инструмент позволяет быстро визуализировать идеи персонажей, интерфейсов и окружения. А для контент-мейкеров открываются новые возможности по иллюстрированию статей, постов в социальных сетях и презентаций. Больше не нужно искать подходящие стоковые фотографии или нанимать иллюстратора для создания уникального визуального контента.

В целом, ChatGPT представляет собой значительный шаг вперед в области генерации изображений с помощью ИИ. Интеграция этой функции непосредственно в языковую модель открывает новые возможности для творчества и продуктивности, делая создание визуального контента более доступным и интуитивно понятным, чем когда-либо прежде. И, судя по всему, это только начало новой эры в развитии генеративного ИИ.

Хабы: