![](https://habrastorage.org/getpro/habr/upload_files/45b/c94/782/45bc9478265ab0ba045299e186af5fbe.jpg)
Введение
Как известно, генерация в нейросети Stable Diffusion осуществляется по текстовому описанию с использованием различных обученных моделей. Кроме того, в качестве первичного источника можно использовать произвольное изображение (генерация по скетчу). Подробно об установке и подробностях работы можно ознакомиться в многочисленных статьях и видеообзорах в интернете. Отмечу только, что в работе нейросети при генерации используется цветовой шум – это стало отправной точкой моего небольшого исследования, которым я хочу с вами поделиться.
В процессе работы с нейросетью мною были использованы как текстовые описания (промты), так и скетчи – примитивные наброски, описывающей некую общую концепцию будущего изображения. При генерации по скетчу в настройках нейросети можно задавать значение параметра «Denoising strength» (принимает значения от 0 до 1). Параметр указывает силу влияния наброска на первичную генерацию изображения. Чем ближе значение к единице, тем меньше влияние. Как показала практика, при значениях ниже 0.5 практически на всех моделях и при любых прочих параметрах генерации, финальное изображение максимально упрощалось и стремилось к наброску. При значениях в диапазоне от 0.5 до 0.6 чаще получались картинки в мультяшном стиле, при этом негативные промты на результат влияния почти не оказывали. Реалистичные модели, как правило, при низких значениях дают результаты с большим количеством искажений, при больших – сценарий финального изображения очень быстро уходит от того, что изображено на наброске.
Первоначально, при создании скетча я стремился максимально точно показать положение фигур или частей тела, формировал примитивные композиции. Но чем сложнее были наброски, тем труднее было получить в Stable Diffusion желаемый результат. Особенно это касалось мелких деталей, которые приходилось потом дорабатывать дополнительными проходами генерации в режиме Inpaint.
В какой-то момент меня посетила идея: а что, если в качестве скетча использовать не осмысленные изображения, а некий шум, максимально примитивный набор цветовых пятен. Для работы в Stable Diffusion использовалась сборка от AUTOMATIC1111
Промт (одинаковый для всех скетчей):
associations, masterpiece, 8k, detailed
Параметры генерации:
Steps: 25
Sampler: DPM++ 2M Karras
CFG scale: 7
Size: 512×512
Denoising strength: 0.62 - 0.675
Для улучшения финального результата использовалась Lora "Detail tweaker" и расширение ADetailer
Результаты получились довольно интересными. Итак.
Набросок 1
![](https://habrastorage.org/getpro/habr/upload_files/c92/78d/f58/c9278df58b321d67b913ae8473aef1eb.jpg)
Результат генерации
![Модель Art Universe, Seed: 1654881968 Модель Art Universe, Seed: 1654881968](https://habrastorage.org/getpro/habr/upload_files/899/99d/d8b/89999dd8b08436afd08da2c19a33ac5a.png)
![Модель Art Universe, Seed: 3931922218 Модель Art Universe, Seed: 3931922218](https://habrastorage.org/getpro/habr/upload_files/7b1/ad8/327/7b1ad832701ac9b41d61ea3c37d4bd93.png)
![Модель CyberRealistic, Seed: 1063730015 Модель CyberRealistic, Seed: 1063730015](https://habrastorage.org/getpro/habr/upload_files/9f4/26b/be4/9f426bbe40e3fbef855794170d3704b0.png)
Набросок 2
![](https://habrastorage.org/getpro/habr/upload_files/544/288/7f1/5442887f1aeb7befac3a0eab568fe3a5.jpg)
Результат генерации
![Модель Epic Realism, Seed: 582712724 Модель Epic Realism, Seed: 582712724](https://habrastorage.org/getpro/habr/upload_files/c76/4e1/fb9/c764e1fb9e949c6bcb9f94a7a400b09c.png)
![Модель Art Universe, Seed: 2929912603 Модель Art Universe, Seed: 2929912603](https://habrastorage.org/getpro/habr/upload_files/db6/e7c/8a0/db6e7c8a0dc785b4b08ac84418f64887.png)
![Модель Art Universe, Seed: 556240507 Модель Art Universe, Seed: 556240507](https://habrastorage.org/getpro/habr/upload_files/17a/e53/6c3/17ae536c37ccd2aee4c2b33cecf86a74.png)
Выводы
Различные модели выдают отличающиеся результаты, не всегда получается что-то интересное, порой приходится дорабатывать изображение в Inpaint. Но следить за процессом интересно, так как никогда точно не знаешь, что получится на выходе. Пока по наблюдениям можно сказать следующее:
большое количество размытых пятен часто даёт эффект полного расфокуса, так что желательно наличие пятен, имеющих чёткие границы
светлые зигзагообразные линии чаще приводят к появлению на изображении человека (обычно девушки, причем иногда не совсем одетой)
худшие результаты получаются на светлом однотонном фоне c малым количеством одноцветных чётких пятен. Чаще всего в кадре появляются невнятные фигурки, а то вообще какая-то абстракция, лишённая смысла
интересные результаты дают вертикальные линии на фоне размытых разноцветных пятен
лучше всего себя показывает модель Art Universe, Epic Realism и Dreamshaper 8
Ещё больше скетчей и результатов есть в моём телеграмм-канале. Эксперименты продолжаются.