Bjkop 19 авг в 12:25

Как писать промпты для Midjourney: структура идеального изображения

Простой

10 мин

1.6K

Блог компании BotHubИскусственный интеллект

Туториал

Midjourney — несомненно, один из лучших генераторов изображений, существующих на данный момент, но стоит также помнить, что он вовсе не волшебная кнопка и не может угадать, что вы хотите. Он просто делает то, что вы ему говорите. И именно поэтому одни получают картинки, которые будто сошли с обложки книги, а другие — нечто смутно и совсем отдалённо напоминающее задуманное. Потому что разница не в навыках модели — а в промпте.

Попробуйте сами: напишите лисёнок — и Midjourney покажет «какого-то» лисёнка. А теперь: маленький рыжий лисёнок, сидит на опушке, уши настороже, вокруг — опавшие листья, тихое осеннее утро. Уже ближе. Появляется ощущение, что это «тот самый» лисёнок, которого мы себе представляли.

`маленький рыжий лисёнок, сидит на опушке, уши настороже, вокруг — опавшие листья, тихое осеннее утро`

Это как объяснить художнику, что вы видели в своих фантазиях, — чем точнее вы говорите, тем больше шанс, что он поймёт вас правильно.

И да, конечно, иногда хочется просто посмотреть, что получится, однако если нужно что-то конкретное — придётся описать это «вслух» дословно, чтобы не упустить важные детали и результат максимально отображал ваши ожидания.

В данной статье я расскажу, как писать промпты так, чтобы результат перестал быть случайностью, чтобы каждый раз вы могли повторить свой успех, а не гадать, повезёт на этот раз добиться ожидаемой картинки или нет.

К концу я постараюсь научить вас говорить с Midjourney на «одном языке». И может быть, вы даже начнёте с удовольствием создавать что-то тёплое и своё — например, лисёнка, который смотрит на закат прямо как герой какой-нибудь старой сказки.

Как Midjourney читает ваш промпт

Кстати, если вы хотите попробовать потренироваться в написании промптов самостоятельно — на платформе BotHub, перейдя по данной ссылке, вы получите 100 000 капсов и сможете опробовать всё самостоятельно!

А теперь перейдём к делу: когда вы пишете промпт, Midjourney не «понимает» его, как человек. Вместо этого текст разбивается на токены — смысловые кусочки, которые нейросеть преобразует в визуальные ассоциации.

Например, разница между лисёнок в лесу и в густом лесу среди осенних клёнов — маленький лисёнок огромна. В первом случае получится обобщённая сцена, во втором — детализированная картина с акцентом на атмосферу.

Параметры --v 7, --ar, --style помогают настроить стиль и формат, но они не заменяют описания. Если написать --v 7 без деталей, нейросеть просто дополнит пробелы случайными ассоциациями.

Midjourney не «думает» — он ищет шаблоны в данных. Чем точнее слово, тем выше шанс получить нужный результат. Таким образом, кот даст случайный образ кота, а пушистый рыжий кот с изумрудными глазами — конкретную деталь.

Вывод: представьте, что описываете картину слепому художнику. Чем яснее и детальнее — тем ближе к желаемому результату.

Архитектура промпта: от идеи к готовому описанию

Представьте, что вы ставите спектакль: нужны главный герой, декорации, действие и свет. Универсальная структура промпта как раз и есть ваш сценарий, разбитый на ключевые акты:

Главный объект: кто или что в фокусе? Без ясного центра кадра всё теряет смысл.
Детали: какие черты делают его уникальным? Цвет, текстура, возраст — всё, что превращает абстракцию в персонажа.
Действие или состояние: что происходит здесь и сейчас? Без движения или эмоции сцена мертва.
Окружение: где разворачивается история? Фон не просто декорация, он создаёт атмосферу и контекст.
Стиль и настроение: какими красками писать эту историю? Реализм или фэнтези? Тревога или умиротворение?
Технические уточнения: финальные штрихи — формат, версия модели, уровень стилизации (--ar, --v, --stylize).

Как это работает на практике:

Шаг 1. Объект:
Начинаем с кристальной ясности. Не «животное», а суть того, что нам нужно.

лисёнок (уже намекаем на юный возраст).

Шаг 2. Детали:
Вдыхаем жизнь. Каждая уточняющая черта снижает шанс нейросети «додумать» что-то своё.

молодой, рыжий с медным отливом, пушистая шерсть, яркие изумрудные глаза

«Медный отлив» вместо просто «рыжий» задаёт глубину цвета. «Изумрудные глаза» — точнее «зелёных» добавляет выразительности.

Шаг 3. Действие:
На этом шаге как бы «замораживаем» момент. Без действия объект — пустышка.

осторожно выглядывает из-за старого дуба, уши насторожены, хвост опущен

«Опущенный хвост» — не просто поза, а немой сигнал робости, который нейросеть способна интерпретировать в контексте.

Шаг 4. Окружение:
Далее выстраиваем мир вокруг героя. Окружение диктует свет, цвет, общие ощущения.

густой осенний лес, ковёр из багряных и золотых листьев, мягкий рассветный свет, пробивающийся сквозь лёгкий туман

«Рассветный свет + туман» = мягкие тени и золотистые блики. «Багряные и золотые» = пик осени, а не размытая «желтизна».

Шаг 5. Стиль и настроение:
Задаём тон и визуальный язык. Что важнее: документальная точность или сказочное чувство?

фотореализм, тёплая загадочная атмосфера, лёгкий сказочный оттенок

«Лёгкий сказочный оттенок» (не «фэнтези»!) позволяет сохранить реализм, добавив лишь нотку волшебства.

Итоговый промпт (собранная история):
молодой рыжий лисёнок с медным отливом пушистой шерсти и яркими изумрудными глазами осторожно выглядывает из-за старого дуба, уши насторожены, хвост опущен, густой осенний лес, ковёр из багряных и золотых листьев, мягкий рассветный свет пробивается сквозь лёгкий туман, фотореализм, тёплая загадочная атмосфера, лёгкий сказочный оттенок

Секрет эффективности этой структуры — в её естественности. Она повторяет то, как мы сами видим и описываем мир:

Сначала замечаем главное (объект + детали): «Рыжий лисёнок с изумрудными глазами…»
Затем понимаем, что он делает и где (действие + окружение): «...осторожно выглядывает из-за дуба в осеннем лесу…»
И наконец, чувствуем атмосферу и уточняем технику (стиль/настроение): «...фотореализм с тёплой загадочностью и сказочной ноткой».

Значимые нюансы:

Важна лаконичность: 5 точных слов сильнее 20 расплывчатых. Перегруз деталями рассеивает фокус.
Гармония вместо конфликта: реализм и огромные мультяшные глаза в одном промпте собьют Midjourney с толку. Стоит следить за сочетаемостью.
Параметры — инструменты, а не волшебники: --v 7 без внятного описания даст случайный результат.
Если результат не тот — ищите слабое звено: Разложите промпт обратно по этим 5 пунктам. Чаще всего «съезжает» что-то в деталях, действии или окружении — они недостаточно конкретны или противоречат друг другу.

По сути, хороший промпт — это умение увидеть картинку в голове и разложить её на понятные «кирпичики» для нейросети. Чем чётче вы представите и опишете каждый слой своей задумки, тем ближе к задумке будет итог.

Язык промпта

Когда вы формулируете запрос для Midjourney, важно помнить: вы общаетесь не с человеком, а с системой, обученной на миллионах изображений. Модель не интерпретирует смысл, не чувствует эмоции и не понимает абстрактные оценки вроде «красиво», «интересно» или «гармонично». Эти слова не связаны в её обучении с конкретными визуальными образами — они не активируют никаких отчётливых весов в нейросети. Для Midjourney такие формулировки — пустые токены, не влияющие на результат.

Почему так происходит?

Всё дело в архитектуре. Midjourney использует механизм токенизации, преобразуя текст в числовые векторы, которые затем сопоставляются с визуальными кластерами в обучающем наборе. Чем конкретнее и визуальнее слово, тем чётче его ассоциация. Например, слово лиса активирует обобщённый паттерн «лисячьих» изображений. А вот пушистый рыжий лисёнок с изумрудными глазами, сидящий на большом камне в лучах утреннего света — уже набор специфических признаков, каждый из которых направляет модель к определённой визуальной комбинации.

Разница между двумя промптами не в длине, а в плотности деталей.

Сравните:

лисёнок в лесу, красиво

Результат — обобщённая сцена с высокой долей случайности. Модель выбирает наиболее вероятные сочетания по ключевым словам, но без чёткого направления.

Маленький лисёнок с пушистым хвостом, покрытым инеем, медленно шагает по заснеженной поляне. Его дыхание — лёгкое облачко в морозном воздухе. Вокруг тишина, слышен только хруст снега под лапами.

Здесь каждый элемент управляет отдельной частью изображения: текстура меха, состояние атмосферы, движение, освещение, звуковая атмосфера. Это не просто описание — это визуальная инструкция.

Как строить эффективные промпты?

Суть в том, чтобы заменить общие формулировки на конкретные, осязаемые детали:

Глаголы должны передавать действие, а не состояние:
Вместо сидит — притаился, уши настороже, будто услышал шорох за деревьями.
Прилагательные — описывать физические свойства:
Вместо хороший мех — блестящий, слегка влажный от росы, с переливами на свету.
Предлоги и локализация задают композицию:
в лесу — слишком обще.
среди густых елей, где между стволов висит утренний туман — уже создаёт атмосферу и глубину.

Что делать с метафорами?

Они допустимы, но только если их можно визуализировать.

Фраза его взгляд — как искра в темноте работает, потому что модель может сопоставить её с контрастом света и тени, бликами в глазах, ночным освещением.

А вот он излучает внутреннюю гармонию — не имеет визуального эквивалента в обучающих данных. Такое описание не даст точности.

Проверка на визуальную чёткость

Простой способ оценить промпт: прочитайте его и попробуйте представить результат.

Если в воображении возникает ясная, детализированная сцена — высока вероятность, что и модель воспроизведёт нечто близкое.

Если образ размыт, не хватает глубины или динамики — значит, нужно добавить недостающие элементы.

Что стоит уточнять:

Текстуры: шелковистый мех, хрустящий снег, шершавая кора.
Свет: мягкий рассеянный, резкие тени от закатного солнца, свет, пробивающийся сквозь листву.
Движение: прыгает, осторожно ступает, настороженно оглядывается.
Сезон и время суток: осенние листья, медленно падающие в воздухе, туман над рекой на рассвете.

Midjourney не воссоздаёт вашу идею — она собирает изображение из уже известных визуальных блоков, потому как она генерирует изображение на основе паттернов из обучающих данных. Если в данных мало примеров вашего запроса (например, мухомор в стиле импрессионизма), результат будет лишь приблизительным. В таком случае ваша задача — точно указать, какие блоки нужны и как их соединить.

Одно точное прилагательное вроде дрожащий или искрящийся может изменить весь вектор генерации. Оно не просто добавляет деталь — оно переключает модель на другую часть обучающего пространства.

Когда вы пишете промпт с такой точностью, лисёнок перестаёт быть фоновым элементом. Он становится частью мира — с температурой воздуха, физикой движения, светом и атмосферой.

Стиль: как задать направление без потери контроля

Стиль в Midjourney напрямую влияет на архитектуру изображения: выбор цветовой палитры, текстуры, композиции, даже пропорции объектов. Один и тот же промпт в разных стилях может выдать кардинально разные результаты — не только по внешнему виду, но и по структуре.

Начнём с базовых способов задания стиля.

Жанр — самый простой инструмент: сказочная иллюстрация, реализм, аниме, киберпанк. Эти слова активируют встроенные стилевые кластеры модели. Например, аниме запускает параметры, характерные для --niji.

Указание художника или студии работает через ассоциативную память модели: в духе Билла Пита, с влиянием Эшера, как у Studio Ghibli. Midjourney обучался на изображениях, связанных с этими именами, поэтому такие отсылки эффективны. Но важно писать точно: Studio Ghibli даёт другой результат, нежели Miyazaki style.

Формат медиа помогает задать контекст: обложка детской книги, кадр из анимационного фильма, цифровая живопись, фотография на плёнку 35mm. Это влияет на зерно, глубину резкости, насыщенность цвета. Например, film grain, Kodak Portra 400 — конкретные термины, которые можно добавить для текстуры.

Можно ещё и комбинировать: реализм с элементами фэнтези или фотореализм и мягкое свечение. Но будьте осторожны: более трёх стилевых указаний часто вызывают конфликт интерпретаций. Лучше один доминантный стиль + одно уточнение.

Например:
лисёнок в шапочке из мухомора, светящийся лес, сказочная иллюстрация, как в детской книге 90-х --v 7

Такой промпт даёт четкий вектор. А если написать сказка + киберпанк + импрессионизм, Midjourney начнёт балансировать между противоречивыми паттернами — и результат станет нестабильным.

Стиль — не украшение. Это технический параметр, который следует задавать осознанно. Выбирайте его так же тщательно, как и сам объект.

Типичные ошибки в промптах и как их избежать

Работа с Midjourney часто воспринимается как процесс проб и ошибок. Но большинство неудач — не результат «непредсказуемости» нейросети, а следствие системных ошибок в построении промпта. Важно понимать: Midjourney — это не искусственный интеллект в человеческом понимании, а сложный алгоритм, сопоставляющий текстовые описания с визуальными паттернами из своего обучающего набора. Когда результат не соответствует ожиданиям, причина почти всегда в формулировке запроса.

Рассмотрим основные ошибки и способы их устранения.

1. Перегруз деталями

Самая распространённая ошибка — попытка втиснуть в один промпт слишком много элементов.

Пример:
лисёнок, дракон, летающий замок, битва, дождь, радуга, в стиле импрессионизма и пиксель-арта

Такой запрос не описывает сцену — он создаёт конфликт паттернов. Midjourney пытается найти пересечение всех этих понятий, но в обучающих данных редко встречаются такие комбинации. Результат — визуальный шум, потеря фокуса, размытая композиция.

Модель эффективно обрабатывает 3–4 ключевых элемента в одном запросе. Каждый дополнительный компонент снижает вес остальных, ослабляя контроль над результатом. Вместо перечисления всего подряд, выстраивайте иерархию: что главное, что второстепенно, что создаёт атмосферу.

Как исправить? Просто!
Определите центральный объект, добавьте до двух сопутствующих элементов и атмосферу. Всё, что не усиливает основную идею, — уберите.

2. Размытые и оценочные формулировки

Midjourney не реагирует на абстрактные оценки. Слова вроде красиво, стильно, интересно или милый не связаны в обучающих данных с конкретными визуальными признаками. Они не активируют определённые нейронные кластеры — это молчаливые токены, не влияющие на генерацию.

Вместо...
милый лисёнок в лесу, красиво

...пишите:
маленький лисёнок сворачивается калачиком на старом пне, уши слегка дрожат от холода, вокруг — опавшие листья, свет пробивается сквозь кроны

Каждое слово здесь — сигнал: дрожат задаёт движение, опавшие листья — сезон, свет пробивается — тип освещения. Такой промпт не оценивает, а описывает. И именно это модель может визуализировать.

3. Игнорирование параметров

Параметры вроде --ar, --v, --style — не опциональные «приправы». Это технические условия генерации, влияющие на саму структуру изображения.

Примеры:

--ar 9:16 — вертикальный формат, полезен для обложек, сториз, мобильных экранов.
--v 7 — выбор версии модели. Каждая версия по-разному интерпретирует промпты.
--style expressive или --style raw — меняет степень стилизации и буквальность интерпретации.

Забытый параметр может полностью изменить результат. Например, без указания --v 7 система может использовать более старую версию с другим поведением. Это не «баг» — это ожидаемое поведение при неполной инструкции.

Правило: параметры должны быть частью первоначального замысла, а не добавляться постфактум.

Понимание типичных ошибок — первый шаг к контролю над процессом генерации. Вместо того чтобы винить модель в «непредсказуемости», анализируйте свой промпт:

Слишком много деталей? — Упростите.
Общие формулировки? — Конкретизируйте.
Нет приоритетов? — Используйте ::.
Забыты параметры? — Добавьте до генерации.

Каждый раз, когда результат не совпадает с ожиданиями, задавайте себе: «Какая ошибка здесь проявилась?» Со временем вы начнёте видеть слабые места ещё до отправки запроса. И генерация перестанет быть лотереей — она станет точным инструментом воплощения замысла.

Ведь хороший промпт — это не отсутствие ошибок. Это умение их предвидеть.

Вторую часть вы можете [[[найти тут]]].

Хабы: