Новый генератор изображений ChatGPT: все стили, режимы и возможности, в чате и через API / Habr

Привет друзья! Вы наверняка уже знаете, что недавно ChatGPT получил обновление с революционной функцией генерации изображений. Новая технология, основанная на модели GPT-4o, генерирует картинки как никто другой на рынке! За первую неделю после запуска более 130 миллионов пользователей создали свыше 700 миллионов изображений – это настоящий бум! Уверен вы видели или даже сами делали Ghibli-фикацию – изображения в стиле аниме студии Гибли. Но что еще крутого может делать новая генеративная модель?

Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист. И я провел глубокое исследование, чтобы собрать для вас полный список из более чем 60 стилей и приемов, которые реально работают в обновленном ChatGPT. Это только проверенные примеры промптов с Reddit и других источников. Кроме того, расскажу об особых режимах работы, ограничениях и технических деталях.

❯ Особые режимы генерации изображений

Создание нового изображения на основе референсов

Вы можете загрузить несколько изображений как референсы, и ChatGPT создаст новое изображение, объединяющее элементы загруженных. Например, можно загрузить фото четырех отдельных предметов (лосьон, мыло, аромапалочки и бомбочку для ванны), и попросить создать изображение подарочной корзины с этими товарами.

Пример промпта для объединения референсов:

Generate a photorealistic image of a gift basket on a white background 
labeled 'Relax & Unwind' with a ribbon and handwriting-like font, 
containing all the items in the reference pictures.

Или вот еще пример:

Объедини все эти изображения в один плакат, горизонтальное соотношение, название Хамон из Снорка – Любимый деликатес сталкеров. на столе стоит хамон, за окном вид на Припять, на столе так же лежит противогаз и на фоне сидит сталкер.

Результат получается впечатляющим! Это открывает огромные возможности для создания композиций из разных объектов, каталогизации товаров или дизайна.

Генерация по фото с сохранением узнаваемости

Вы можете загрузить свое (или чужое) фото и попросить чат гпт использовать его в качестве референса.

Получается очень классно, теперь и в отпуск можно не ехать.

Конечно, теперь с собой в качестве главного героя можно сделать что угодно, например советский плакат.

Промпты достаточно простые, кидаем свою фотку и пишем: Сделай советский агит плакат с этим парнем, держащим в руках полную тарелку пельменей со сметанкой и укропом сверху и подписью "Кто не работает – тот ест!"

Генерация предметов в окружении

Теперь вы легко можете создать фотографии в интерьере для любого продукта, особенно оценят продавцы на маркет плейсах.

И работает это действительно хорошо, я бы сказал слишком хорошо, чтобы быть правдой.

Уже жду в комментариях к посту ваши мемные продукты и товары.

Создание ремиксов существующих стилей

Теперь вы можете не просто воссоздать стиль, вы можете взять стиль и создать в этом стиле совершенно новый предмет.

Я для примера взял из гугла вот этот ламповый усилитель, и подумал – а было бы круто сделать к нему еще пару колонок и мультимедийный плеер правда?

Ну и дальше мы с вами уже научились как посмотреть это в интерьере, скажем, на фоне камина. Чтобы как в каталогах с дорогой техникой.

Осталось выйти с этими примерами дизайна на китайскую фабрику и начать производство, как говорится, охапка дров – Hi-Fi готов.

Дорисовка изображения (outpainting)

Аутпеинтинг теперь тоже не проблема, достаточно скинуть изображение и написать куда его дорисовать.

Работает не идеально, у меня вот вместо группы Beatles получилась группа BTS.

Вроде бы и похоже и нет, а все потому, что это не настоящий аутпеинтинг, а просто перерисовка всей картинки. Такая же история и с колоризацией.

Раскрашивание и восстановление чёрно-белых или испорченных фотографий

Просто командой Сделай это фото цветным его можно покрасить, но на самом деле это тоже будет уже совсем другое фото. А еще у меня много ругался на исторические снимки и не хотел их раскрашивать.

Может показаться, что это одно и то же изображение, но если посмотрите внимательнее, то увидите разницу, оно воссоздано.

Но в качестве развлечения на вечер для домочадцев, если у вас есть альбом черно-белых фоток – подойдет.

Редактирование с помощью маски (Inpainting)

В ChatGPT есть полноценный инпейнтинг. Вы загружаете изображение и маску, где прозрачные области маски будут заменены, а черные области останутся без изменений. При этом можно описывать полное новое изображение, а не только редактируемую область.

Пример промпта для инпейнтинга:

A sunlit indoor lounge area with a pool containing a flamingo

Как на примере с фото солнечной комнаты, где в бассейн добавлен фламинго. Маска может быть простым черным пятном с прозрачной областью там, где вы хотите внести изменения. Важно: маска должна иметь альфа-канал прозрачности и быть того же размера, что и исходное изображение.

Через веб интерфейс же все еще проще. Просто выделите часть изображения и напишите промпт.

И вот отличный результат, в отпуск не еду, очки не покупаю. У меня уже "все было".

❯ Ограничения на генерацию

Из-за огромной популярности функции OpenAI ввела временные ограничения:

Бесплатные пользователи: около 3 изображений в день (может меняться в зависимости от нагрузки)
Платные подписчики: возможность сгенерировать подряд достаточно много изображений (десятки), но потом генератор ограничивает доступ на 15 минут, после чего возможность снова восстанавливается

❯ Полный список стилей с примерами генераций

В качестве примера я буду изменять обложку из одного из моих роликов. Изначально она была сгенерирована через Flux, но для нас это никакой роли не играет. Конечно меня бы не хватило на все стили, но многие я попробовал и показываю вам.

Анимационные стили

Студия Ghibli: "Transform this image into a gentle, detailed Studio Ghibli-style scene with magical backgrounds and warm lighting."

Disney Animation: "Make this image look like a bright, lively Disney animation frame with expressive faces and glossy color."

Pixar: "Turn this image into a Pixar movie style with 3D modeling, shiny materials, and cinematic lighting."
Toy Story: "Restyle this image to look like a Toy Story frame with plastic textures and playful toy-like shapes."
Cars (Pixar): "Transform this image into a Cars universe scene, full of cartoon vehicles and reflective surfaces."
Minions: "Reimagine the subjects of this image as Minions, with yellow skin, goggles, and cheeky personalities."

Adventure Time: "Draw this image in Adventure Time style: thin black lines, simple shapes, and quirky fantasy details."
The Simpsons: "Make this image look like a Simpsons cartoon scene with yellow characters, Springfield vibes, and cartoon shading."

Chibi: "Convert this image to chibi style with tiny, cute bodies and large, shiny eyes."

Rubber Hose / Cuphead: "Restyle this image in 1930s rubber hose animation, with noodle limbs and vintage cartoon faces."

Игровые стили

Mario Bros: "Convert this image to a Mario Bros pixel world with chunky colors and playful Nintendo elements."

Voxel Art: "Transform this image into voxel art with blocky, 3D cubes and simplified details."
8-bit Video Game: "Make this image look like an 8-bit video game screenshot, with chunky pixels and a limited palette."
16-bit Video Game: "Turn this image into a 16-bit video game scene with pixel art sprites and bright backgrounds."

LEGO: "Turn this image into a LEGO world, where everything is made of plastic bricks."

Комиксы и манга

Peanuts: "Redraw this image as a Peanuts comic panel with hand-drawn lines and soft pastel backgrounds."
1940s Comics: "Turn this image into a 1940s comic book page with halftone textures and dramatic retro inking."
1950s Comics: "Restyle this image in the bold, bright look of a 1950s comic, using strong colors and classic comic fonts."

Manga: "Make this image a manga illustration with screentone shading and detailed black-and-white linework."
Pop Trading Card: "Transform this image into a shiny pop-art trading card with bold borders and collectible card style."

Современные эстетики

Lo-fi: "Render this image in cozy lo-fi art style with soft analog colors, gentle blur, and mellow atmosphere."

Vaporwave: "Convert this image into vaporwave with neon pinks, Greek statues, and retro grid backgrounds."
Synthwave: "Make this image synthwave style with glowing neon grids, sunsets, and futuristic cityscapes."
Cyberpunk: "Restyle this image in cyberpunk, full of rain-soaked streets, neon signage, and futuristic energy."

Steampunk: "Turn this image into steampunk with brass gears, Victorian fashion, and steam-powered devices."
Retro-futurism: "Turn this image into retro-futurism with 60s/70s sci-fi, chrome details, and optimistic technology."

Dreamcore: "Restyle this image in dreamcore with liminal spaces, surreal colors, and nostalgic mood."

Stickerbomb: "Restyle this image with stickerbomb collage, layering various sticker styles and graffiti tags."

Классические художественные стили

Art Nouveau: "Transform this image into Art Nouveau, featuring flowing lines, ornate floral motifs, and decorative frames."
Art Deco: "Restyle this image as Art Deco, with geometric patterns, gold highlights, and symmetrical design."
Renaissance Painting: "Render this image in a Renaissance painting style, with classical poses, oil texture, and soft light."

Baroque: "Make this image a dramatic Baroque painting, full of contrast, ornate detail, and expressive light."
Impressionism: "Restyle this image as impressionist art, with visible brushstrokes, lively color, and dreamy atmosphere."
Cubism: "Transform this image into a Cubist piece, with fragmented geometry and multiple viewpoints."
Pop Art: "Make this image pop art style, using flat colors, thick outlines, and comic speech bubbles."

Gothic Art: "Transform this image into Gothic art, with pointed arches, stained glass, and dark romance."
Surrealism: "Turn this image into surrealist art, full of bizarre compositions and dreamlike visuals."

Ukiyo-e: "Convert this image into a Japanese ukiyo-e woodblock print with elegant outlines and flat colors."

Техники и материалы

Oil Painting: "Render this image as an oil painting, with deep colors and textured brushwork."
Watercolor: "Transform this image into watercolor with delicate washes, soft blending, and light paper texture."
Pencil Sketch: "Restyle this image as a pencil sketch, with cross-hatching, rough lines, and grayscale shading."

Charcoal Drawing: "Make this image into charcoal art with bold, rough strokes and strong shadows."

Stained Glass: "Turn this image into stained glass, with black outlines and glowing jewel-toned glass sections."
Mosaic: "Convert this image into a colorful mosaic made of tiny tiles and stone patterns."
Embroidery: "Make this image look embroidered, with stitched outlines, colorful threads, and fabric texture."
Chalkboard Art: "Restyle this image as chalkboard art, with white chalk sketches on a dark background."

Claymation: "Make this image into a claymation scene with modeling clay textures and stop-motion look."

Origami: "Render this image as an origami scene, using folded paper shapes and crisp creases."
Patch Embroidery: "Render this image as a patch embroidery design, with simple shapes and border stitches."

Patchwork Quilt: "Turn this image into a patchwork quilt, with fabric squares and visible stitches."

Дизайн и иллюстрация

Flat Design: "Turn this image into flat design, with solid colors, clear shapes, and no gradients or shadows."
Minimalist Sticker: "Transform this image into a minimalist sticker, using bold outlines, tiny details, and a cute vibe."

Doodle Art: "Make this image look like playful doodle art, with random sketches, squiggles, and hand-drawn icons."

Infographic: "Turn this image into a clean, informative infographic with icons, labels, and easy-to-read layout."
UI/UX Mockup: "Render this image as a modern UI/UX mockup, with crisp interface elements and clean grids."

Children's Book: "Restyle this image for a children's book with soft shapes, pastel backgrounds, and playful details."
Fantasy Storybook: "Transform this image into a fantasy storybook illustration with enchanting scenery and magical lighting."
Peter Rabbit: "Transform this image into an elegant Peter Rabbit storybook illustration with soft, classic watercolor."

Специальные эффекты и стили

Fashion Illustration: "Make this image a high-fashion illustration, with elongated figures and elegant clothing details."

Tattoo Art: "Restyle this image as tattoo art, with bold outlines and limited ink shading."
Graffiti Street Art: "Turn this image into colorful graffiti street art, with spray paint, urban motifs, and rough outlines."

Psychedelic Art: "Make this image psychedelic, with bright swirling patterns and mind-bending colors."

Noir: "Make this image a film noir still, with dramatic black and white contrast and moody shadows."

Polaroid Photo: "Render this image as a black and white Polaroid photo, with film grain and vintage fade."
LensPilot Camera: "Make this image look like it was shot with a LensPilot camera, with unique analog textures."

❯ Эффективные промпты для генерации

Лучшие результаты получаются при использовании следующей структуры запроса:

Действие: начинайте с глагола (Transform, Make, Turn, Render)
Объект: что именно изменить ("this image", "this photo")
Целевой стиль: конкретное название стиля
Детали стиля: 2-3 ключевых характеристики
- текстуры ("plastic textures", "film grain")
- цвета ("neon pinks", "soft pastel")
- техники ("visible brushstrokes", "cross-hatching")
- атмосфера ("dreamlike visuals", "nostalgic mood")

Для сложных композиций можно использовать структурированный JSON-формат:

{
  "Subject": "Elderly couple on a park bench",
  "Style": "monochrome:1.2, black and white Polaroid, vintage",
  "Composition": "centered, square format, candid framing",
  "Lighting": "soft natural light, slight vignetting",
  "Finish": "film grain, white border, subtle fade",
  "NegativePrompt": "color, blur, watermark, modern"
}

Конечно же фактически модель не обрабатывает промпт именно в таком виде, а переводит его в свой формат, так что вы можете не переживать за синтаксис, это нужно для вашего удобства и структурированного ввода.

❯ Технические детали и API для разработчиков

OpenAI уже выпустила API gpt-image-1, позволяющий интегрировать новый генератор изображений в сторонние приложения. По отзывам экспертов, модель превосходит конкурентов (включая Midjourney-v7) по точности исполнения запросов, особенно когда нужно следовать сложным инструкциям.

При генерации доступны размеры 1024x1024 (квадрат), 1536x1024 (пейзаж) и 1024x1536 (портрет), три уровня качества (низкое, среднее, высокое), форматы PNG, JPEG и WebP с контролем сжатия, а также возможность прозрачного фона для PNG и WebP.

❯ Цены и стоимость использования API

Ценообразование основано на токенах с тремя разными тарифами: текстовые токены для запросов ($5 за миллион), входные токены для референсных изображений ($10 за миллион) и выходные токены для результатов ($40 за миллион).

Стоимость квадратного изображения 1024×1024 составляет $0.02 при низком качестве (272 токена), $0.07 при среднем (1056 токенов) и $0.19 при высоком (4160 токенов). Портретные (1024×1536) и пейзажные (1536×1024) изображения стоят примерно $0.03 при низком качестве, $0.09 при среднем и $0.25 при высоком.

❯ Кто уже использует API

Интеграцию с gpt-image-1 уже внедряют Adobe в продукты Creative Cloud, Firefly и Express; Figma и Canva в свои дизайн-платформы; GoDaddy для создания логотипов; HubSpot для маркетинговых материалов; Instacart для визуализации рецептов и списков покупок; а также Invideo для своих редакторов.

❯ Как получить доступ к API

Официальный API gpt-image-1 от OpenAI требует пройти верификацию организации через сторонний сервис whitepersona, что создает сложности для многих разработчиков. Альтернативой могут служить агрегаторы и провайдеры, которые упрощают доступ. Российский сервис Piper.my уже предоставляет доступ к этому API через свой "народный оркестратор нейросетей", а также ожидается, что популярные платформы Together AI, Fireworks.ai и Fal.ai в ближайшее время добавят поддержку gpt-image-1. Это существенно расширит возможности для независимых разработчиков и небольших команд, которым сложно пройти официальную верификацию.

❯ Защита и модерация контента

При разработке API gpt-image-1 особое внимание уделено безопасности. Система защиты работает по тем же принципам, что и в веб-версии ChatGPT-4o, обеспечивая надежную фильтрацию контента.

Система защиты включает автоматические блокировки для предотвращения генерации контента, нарушающего правила использования. Каждое созданное изображение автоматически маркируется метаданными C2PA, что позволяет подтвердить его происхождение.

Разработчикам доступен параметр moderation с двумя режимами: стандартный (auto) с полной защитой и облегченный (low) с менее строгими фильтрами для определенных случаев использования.

Новый генератор изображений в ChatGPT — настоящий прорыв в области генеративного ИИ. Широкий спектр стилей, высокое качество результатов и удобные режимы редактирования делают его мощным инструментом для творчества. Несмотря на временные ограничения, вызванные огромной популярностью, эта технология уже меняет подход к созданию визуального контента и открывает новые возможности как для обычных пользователей, так и для бизнеса.

Я рассказываю больше о нейросетях у себя на YouTube, в телеграм и на Бусти. Буду рад вашей подписке и поддержке. Всех обнял и удачных генераций.

Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩

Опробовать ↩