Как писать промт для генерации изображения/видео и получить лучший результат? / Хабр

Вслед за текстовыми нейросетями появились модели, которые могут генерировать фотографии и видео. Что одно, что другое — инструмент, которым нужно уметь управлять. Сегодня разберем вопрос: как правильно писать промт для успешной генерации изображения или видео?

Кстати, в своей предыдущей статье я рассказывал о промтах для текстовых моделей, если вам интересно — можете глянуть тут.

Занимайте позицию поудобнее, наливайте чай или кофе, если вы его больше предпочитаете, ну а я начну свое повествование.

Нейросеть для генерации изображений

Схема промта будет значительно короче, чем для текстовых нейросетей. Скажем так, здесь дело кроется в настройке. Сам план состоит из пяти позиций: четкость, детализация, структурированность, стиль и атмосфера. Давайте пройдемся по каждому из них.

Четкость

Как и в случае с текстовыми нейросетями, ИИ понимает свою задачу намного лучше, когда вы выражаетесь конкретно. Грубо говоря, если вы делаете запрос на генерацию рыба в плавательном костюме, то лучше написать так: Рыба в плавательном костюме сидит на качелях на дне моря. Вокруг кораллы.

Самый простой пример, который я смог придумать. Конечно, это не назвать верхушкой четкости, но и ужасом уж точно. К чему я это все, чем более четкое задание вы дадите, тем больше сгенерированный результат будет похож на желаемый.

Детализация

Чем больше деталей, тем точнее результат. Можно описать ракурс, освещение и стиль. Вернусь к нашим баранам… Точнее, к рыбам, собственно Карась в черном плавательном костюме в красную точку качается на качелях, вокруг него кораллы.

Конечно, карась из этой рыбы как из меня доктор математических наук, но основное учтено. Детализация — важная вещь, о которой не стоит забывать, ведь в противном случае додумывать детали будет сама нейросеть.

Стиль и атмосфера

Не стоит забывать о возможных стилях вашего творения, будь то манга, реализм, мультяшность и подобное. Допустим, наш карась из мультика переплывет в мангу.

Купальник испарился, я бы сказал, что теперь это кимоно, но стиль и пожелания были учтены. Можно заметить, что тут я уже не указал промт, но он похож на предыдущий, единственное изменение — это, собственно, добавление самого стиля.

Структурированность

Думаю, выделю это как одну из самых важных деталей. Запрос должен быть логичным и последовательным, чтобы AI мог правильно вас понять. Можно применить к промтам формулу 3 вопросов: «что + как + где».

**Что? Карась. Как? В черном купальнике в красную точку. Где? На качелях, в море среди кораллов**

Простенькая формула, отвечая на вопросы которой вы сможете собрать всю нужную информацию для успешной генерации.

Небольшое отступление

Хочу сказать, что детализация — это хорошо, однако нейросети для генерации изображений плохо кушают большой объем текста. Поэтому следует детализировать, но не добавлять много воды.

Собственно, для простых генераций и описанной информации могло бы хватить. Однако пойду немного дальше и укажу более продвинутые инструменты манипулирования нейросетью для генерации изображений.

Конечно, на этом этапе у меня уже не получится использовать любимого мне карася (хотя в большинстве случаев нейросеть генерировала что-то более похожее на сома), поэтому уберу пока его в холодильник для будущих суши. Кстати, попробуйте повторить его, может у вас выйдет что-то более интересное.

Соотношение сторон

Многие в принципе не задумываются об этом параметре, хотя в некоторых моментах он очень важен. Вот представим, что вам нужно сгенерировать картинку на какой-либо сайт. Вы сделали свое дело, пытаетесь загрузить, а вам выдает ошибку. Сайт не принимает такое соотношение сторон.

Midjourney использует --ar для настройки пропорций, Stable Diffusion делает это с помощью расширения Aspect Ratio Selector, а DALL-E и GPT Image принимают прямой текст: например, в соотношении 1:1,75 (для DALL-E 3), формат 1,5:1 (для GPT Image) или просто в горизонтальных пропорциях (подходит для обеих нейросетей).

Лично я решил сгенерировать через GPT Image, который тоже спокойно воспринял метод, применяемый для DALL-E. На данном изображении соотношение сторон 1:1,5.

GPT Image имеет всего три соотношения: 1:1, 1,5:1, 1:1,5. Даже если попробовать выбрать что-то не входящее в список, то будет выбран ближайший из трех возможных форматов.

Вес

Конечно, это не то, что многие могли бы подумать. Вес обозначает значимость элемента на генерируемом фото. У той или иной нейросети вес может указываться своим особым способом.

Например, Stable Diffusion будет понимать вес скобками, где обычные круглые умножают вес на 1,1 в степени количества скобок — (ключ) утяжеляет до 1,11, ((ключ)) установит вес 1,12 и т. д., — а квадратные делят на 1,1x по такому же принципу.

Однако квадратные скобки, к сожалению, не всегда поддерживаются — или поддерживаются не полностью. В одних сборках Stable Diffusion может быть доступен синтаксис [ключ], [[ключ]], но не поддерживаться вариант с коэффициентом ([ключ:0.7]), в каких-то ещё квадратные скобки вовсе не имеют эффекта. Проверка осуществляется методом проб и ошибок, ну или как вариант — просто применять для уменьшающих весов круглые скобки с числом: (ключ:0,7).

`(красивый хвойный лес), ((река,текущая через него)), голубое небо`

Можно заметить, что высший приоритет имеет река, поэтому она и выделяется на фоне других больше всего. После неё идет лес, а уже потом небо.

В Midjourney используется :: для обозначения веса.

`красивый хвойный лес:: 2 река через него:: 1.5 небо:: 1`

Подобное уже можно отнести к тонкостям настройки генерации, однако даже очень полезным, если вам нужно что-то выделить на своем изображении.

Негативные промты

Еще один важный параметр, который может помочь вам в генерации. Что же такое негативный промт? Если обычно вы пишете то, что хотите видеть, то в негативном описывается, чего быть не должно. Тавтология мое все, но при этом кратко и понятно.

Где-то негативные промты будут записывать в отдельных окошках (если вы пользуетесь приложением или веб-интерфейсом), в случае же простых нейросетей для этого существуют команды, например --no (в Midjourney), либо же применяются отрицательные веса (да, да, те самые, про которые говорил выше).

Вот допустим, яркий пример того, где может пригодиться негативный промт. Задание было простое, а именно сгенерировать горный пейзаж. В большинстве случаев тут вылазит река, которая мне не нужна. Вопрос в том — что делать? Правильно, попросить генерацию без этой водички.

Вот и все, и ни на одном сгенерированном фото нет реки. Опять же повторюсь, не везде негативные промты делаются командой или через веса, у большинства сервисов специальное отдельное окошко для ввода.

Кстати, важное дополнение, в Midjourney вся цепочка параметров должна идти в конце промта, то есть после ключевых слов.

В конечном итоге работа с AI — это процесс творческого взаимодействия. Каждая нейросеть обладает своим подходом и может выдавать разные результаты даже при одинаковом промте.

Ниже приведу табличку с конкретными примерами негативных и позитивных промтов через веса. Думаю, она отбросит все оставшиеся вопросы.

Примеры использования весов в Stable Diffusion и Midjourney

Может ли текстовая нейросеть помочь с написанием промта для генерации изображения?

Безусловно, может. Вам нужно повторить какую-либо картину, точнее создать что-то максимально приближенное к оригиналу.

Следом идем в нейросеть для генерации изображений, вставляем созданный ChatGPT промт и получаем результат.

Конечно, тут не пахнет полным повторением исходного изображения, но они очень схожи сами по себе.

Современные проблемы при генерации и их решения

Немного поразмыслив, пришел к выводу о том, что стоит упомянуть и ошибки, которые допускает нейросеть при генерации. Все же их уменьшение будет зависеть как раз от входного промта.

Здесь не будет конкретных примеров, а скорее рубрика «вопрос — ответ».

Проблема с генерацией текста

Частая проблема, с которой сталкиваются люди при генерации, например, обложек. Нейросеть отвратительно воспринимает алфавит в большинстве случаев, у нее он больше походит на узоры. Как исправить подобный казус? Вариантов несколько.

Первый и самый банальный, сделать всё самостоятельно с помощью графических редакторов.

Второй, написать точный промт: Плакат с надписью "****" крупным шрифтом Arial, четкий текст, черные буквы на белом фоне, минималистичный дизайн. Подобное не всегда поможет, даже в этом случае нейросеть может дать сбой и сгенерировать свое подобие алфавита.

Третий вариант, использовать GPT Image 1, данная модель хорошо справляется с генерацией текста на изображениях.

Аномалии в анатомии

Еще одна проблема, с которой сталкиваются многие при генерации, например, человека. Шесть пальцев? Три ноги? Полторы руки? Все это еще совсем недавно было стабильностью для нейросети. Последние топовые модели практически не допускают подобной аномалии.

Первый способ исправления — детализация промта. Укажите количество пальцев, пропорции тела, опишите позу.

Вторым вариантом, которым можно попробовать исправить ситуацию (и который нередко комбинируют с первым), будет использование негативных промтов.

Вот список негативных промтов, которые часто применяли в ранних версиях генераторов: distorted anatomy (искаженная анатомия), extra limbs (лишние конечности), missing limbs (отсутствующие конечности), deformed limbs (деформированные конечности), asymmetrical body (асимметричное тело), unnatural proportions (неестественные пропорции), extra fingers (лишние пальцы), missing fingers (отсутствующие пальцы), too many fingers (слишком много пальцев), too few fingers (слишком мало пальцев), distorted face (искаженное лицо).

Аномалии в предметах и их поведении

Еще одна распространенная проблема связана с некорректным отображением текстур предметов, неправильной визуализацией воды и другими подобными артефактами. Как и в предыдущих случаях, решение во многом зависит от правильно составленного промта. Важно максимально точно описать, каким должен быть итоговый результат.

Многие пользователи применяют так называемые «волшебные слова» — специальные термины, которые помогают улучшить детализацию и качество изображения:

Для повышения четкости и разрешения часто используют формулировки вроде 4k, 8k, 16k, ultra HD или high resolution.
Если требуется усилить детализацию, можно добавить hyper detailed, ultra-detailed, insanely detailed, а также micro details или intricate details для акцента на мелких элементах.
Для достижения реалистичного рендеринга хорошо работают упоминания технологий вроде unreal engine, ray tracing, v-ray или octane render.
Фотореализм усиливают такие термины, как photorealistic, hyperrealistic и ultra photoreal.
Освещение и тени можно уточнить с помощью global illumination, ambient occlusion, caustics и light rays, а свойства поверхностей через iridescent, metallic, glossy или matte.
Чтобы исключить нежелательные эффекты или случайности, в промт добавляют ограничения: --no blur убирает размытие, --no artifacts предотвращает появление артефактов, --no distortion минимизирует искажения, --no watermark избавляет от водяных знаков, а --no text помогает избежать появления непонятно откуда взявшихся надписей.

Итог по промту для генерации изображений

Что мы имеем по итогу? Опять же составлю пирамидку, как и в своей прошлой статье.

Конечно, нейросети сами по себе могут допускать ошибки даже с идеальными промтами. Генерация изображений вообще обожает подобное, написал слишком длинный промт? Тогда половину она не учтет. Написал слишком короткий? Она многое додумает.

Так в чем секрет успешной генерации изображения? Для простого пользователя — максимально детализированный и четко расписанный промт.

Генерация видео

Представьте, вы открыли для себя нейросети, которые способны генерировать видео. Перед вами поле для ввода запроса. Что же туда писать? Просто описание объекта? Или что-то из разряда просьбы о создании страшного хоррора в деревне? Слишком абстрактно, модели подобного не поймут, однако если распишете все слишком подробно, то нейросеть запутается.

Можно сказать, что промты для видео — отдельный жанр, который в каком-то роде полностью отличается от генерации текста и изображений. Здесь имеют значение движения, действия, перспективы, а не только внешний вид. Видео — это сцена, где важен темп, камера и последовательность, а не простая картинка в движении.

Действие и сюжет

То, с чего начинает любой автор. Задача состоит в том, чтобы определиться с сюжетом и действием. Помним, что видео всегда в движении, а наша задача — объяснить нейросети, что должно происходить в конкретной сцене.

Нам нужно определить, кто главный герой, что он/она делает, где это происходит и как будет выглядеть в динамике. Простейший пример: Мужчина идет по осеннему лесу.

Генерация через Veo 2

Промт из разряда мужчина в лесу не подойдет, в нем просто недостаточно действий.

Описание объектов сцены

Важный пункт, о котором не стоит забывать. Уточните всё, что вы бы хотели видеть в кадре: перечислите персонажей, предметы, фон и окружение.

Чтобы было удобнее, опять же ответим на вопросы относительно того, что мы хотим видеть. Какие действия происходят в кадре? Что есть на заднем плане? Есть ли взаимодействия между этими объектами? Допустим, я хочу, чтобы мужчина с предыдущего сгенерированного видео держал зонт в руке.

Генерация через Hailuo

Нейросеть последовала промту и сгенерировала то, что от нее потребовали. Можно сказать, что мужчина держит зонт немного неестественно, однако некоторые носят его именно так.

Движение камеры

В этом пункте нашей задачей будет настроить ракурс съемки. Представьте, что именно вы снимаете видео. Как вы будете это делать? Актер будет идти на камеру или камера будет следовать за ним? Или может, она вообще будет снимать с какого-то дрона? Назову основные типы движений:

tracking shot — тип, при котором камера движется вместе с объектом.
orbit shot, или же облет объекта по кругу.
zoom in/out позволяет организовать приближение или отдаление.
POV — вид от первого лица.

Не буду приводить примеры к каждому из названных типов, дабы не затягивать. Думаю, двух будет достаточно, пускай в первом камера следует за объектом, а во втором двигается на него.

Генерация через Hailuo: Мужчина идет и держит закрытый зонт в руке, вокруг - осенний лес. Тип движения камеры: камера движется за мужчиной

Генерация через Qwen 3 235B-A22B-2507 Мужчина идет и держит закрытый зонт в руке, вокруг - осенний лес. Тип движения камеры: камера движется на мужчину

Стиль

Думаю, не все хотят генерировать видео, например, как простое кино. На этот случай и надо определиться со стилем.

Аниме? Винтаж? Стоит определиться с выбором. Зачастую по стандарту ИИ будет генерировать видео в стилистике камеры телефона (уровня iPhone). Для примера выберу аниме.

Генерация Veo 3. Эх… Дорогостоящее удовольствие

Стиль учтен — да, два зонта, просто нынче летом погоду не предугадать, вот даже нейросеть путается и вооружает персонажей по полной.

Если же быть серьезным, то мы должны понимать: чем большую нагрузку задаем промтом, тем выше вероятность, что модели запутаются и выдадут какие-либо глюки. Хотя подобная проблема почти не затрагивает топовые модели уровня Veo 3. Здесь я рассматриваю шаги, но не все они обязательны к исполнению; к примеру, стиль и движение камеры необязательны во многих случаях.

Формат

Пункт не назвать обязательным, но он может фигурировать в процессе создания промта. Тут задача — установить ориентацию видео, разрешение, FPS, длительность. Перечисленные настройки обычно настраиваются в онлайн-сервисах отдельно от промта, а где-то предложен лишь один доступный формат генерации.

Генерация Veo 2: Мужчина идет по осеннему лесу днем, мягкий свет, съемка сзади, плавное следование камеры, стиль - киношный, 16:9, 24 FPS

В итоге здесь я решил написать полный промт, с учетом всего вышеперечисленного. Можно заметить, что зонта тут уже нет — посчитал лишней деталью для полной демонстрации. В силу модели, которую я выбрал, качество оставляет желать лучшего, но все остальные условия были соблюдены.

На этом с генерацией видео с нуля можно закончить, все основное для хорошего промта указано. Однако в статье я не мог забыть про оживление фотографий. По сути, тоже генерация видео, только уже не с нуля, а с какой-либо заготовки.

Небольшое отступление

Многие модели для сегодняшней статьи (в частности, Stable Diffusion 3, Midjourney v7, Veo 2 и 3) взяты с сайта агрегатора нейросетей BotHub. Если зарегистрироваться по специальной ссылке, то можно получить 100 000 токенов для реализации своих идей. Конечно, для генерации видео этого будет недостаточно, но хватит для баловства с текстовыми моделями и созданием картинок.

Hailuo и Qwen 3 взяты с официальных сайтов, думаю на них не нужно прикреплять ссылку, учитывая идентичный с их названием URL.

Оживление картинок

Оживление картинок достаточно популярно в нынешнее время. Вы должны понимать, что, в отличие от генерации с нуля, здесь мы будем прописывать то, что должно произойти с загруженным изображением. Грубо говоря, персонажу с картинки предстоит пойти в сторону камеры или сделать, например, сальто.

Кроме самого действия, полезно указать характер анимации (плавная, естественная), контекст (ночной свет, кадрирование по плечи, какой-либо эффект).

Безусловно, стоит избегать общих формулировок, из разряда просьбы «оживить персонажа красиво», нейросеть наверняка не поймет подобного (хотя бывают и исключения). Чем яснее будет структура, тем выше шанс получить ожидаемое.

В качестве важного дополнения стоит сказать, что для анимации персонажа желательно его фото во весь рост, иначе нейросеть сама додумает нижнюю половину, конечно если ваша цель не в создании крупного плана. Вот простенький пример подобного:

Генерация Runway

Можно заметить, что дорисованная часть значительно хуже качеством, если не упоминать, что после оживления оно и так немного просело.

Приведу пример более адекватной генерации вместе с промтом

Генерация Runway. Промт: Сделай так, чтобы персонаж улыбнулся, а после этого моргнул

Признаюсь, не лучший выбор картинки для оживления (получилось немного даже страшно), но всё же работа промта доказана.

Стоит отметить, что для оживления картинки необязательно использовать только Runway. Veo 2, 3 и Hailuo тоже могут справиться с поставленной задачей.

Итог по промту для генерации видео

Если вы хотите получить хороший результат в генерации видео с нуля, то пройтись по каждому из вышеперечисленных шагов будет важно.

Однако не всегда много значит хорошо. Модели для генерации, которые не входят в список топовых, демонстрируют это особенно заметно. Если добавить слишком много деталей, есть вероятность получить результат, в котором не будет и половины запрошенного, а шанс на ошибки и галлюцинации значительно возрастет. Тем не менее это касается не всех существующих нейросетей. Например, для Veo 3 можно найти множество подробных промтов длиной более 400 символов, включая целые абзацы реплик персонажей.

На этом статья подходит к своему логическому завершению. Надеюсь, у меня получилось ответить на вопрос, поставленный в начале статьи, для каждой рассматриваемой задачи.

Спасибо за прочтение!

Как писать промт для генерации изображения/видео и получить лучший результат?

Нейросеть для генерации изображений

Четкость

Детализация

Стиль и атмосфера

Структурированность

Небольшое отступление

Соотношение сторон

Вес

Негативные промты

Может ли текстовая нейросеть помочь с написанием промта для генерации изображения?

Современные проблемы при генерации и их решения

Проблема с генерацией текста

Аномалии в анатомии

Аномалии в предметах и их поведении

Итог по промту для генерации изображений

Генерация видео

Действие и сюжет

Описание объектов сцены

Движение камеры

Стиль

Формат

Небольшое отступление

Оживление картинок

Итог по промту для генерации видео

Публикации

Информация