gygavolt 20 сен 2023 в 11:57

Генерация изображения в Stable Diffusion по простому скетчу

Средний

3 мин

12K

Обработка изображений*CGI (графика)*Искусственный интеллект

Обзор

Введение

Как известно, генерация в нейросети Stable Diffusion осуществляется по текстовому описанию с использованием различных обученных моделей. Кроме того, в качестве первичного источника можно использовать произвольное изображение (генерация по скетчу). Подробно об установке и подробностях работы можно ознакомиться в многочисленных статьях и видеообзорах в интернете. Отмечу только, что в работе нейросети при генерации используется цветовой шум – это стало отправной точкой моего небольшого исследования, которым я хочу с вами поделиться.

В процессе работы с нейросетью мною были использованы как текстовые описания (промты), так и скетчи – примитивные наброски, описывающей некую общую концепцию будущего изображения. При генерации по скетчу в настройках нейросети можно задавать значение параметра «Denoising strength» (принимает значения от 0 до 1). Параметр указывает силу влияния наброска на первичную генерацию изображения. Чем ближе значение к единице, тем меньше влияние. Как показала практика, при значениях ниже 0.5 практически на всех моделях и при любых прочих параметрах генерации, финальное изображение максимально упрощалось и стремилось к наброску. При значениях в диапазоне от 0.5 до 0.6 чаще получались картинки в мультяшном стиле, при этом негативные промты на результат влияния почти не оказывали. Реалистичные модели, как правило, при низких значениях дают результаты с большим количеством искажений, при больших – сценарий финального изображения очень быстро уходит от того, что изображено на наброске.

Первоначально, при создании скетча я стремился максимально точно показать положение фигур или частей тела, формировал примитивные композиции. Но чем сложнее были наброски, тем труднее было получить в Stable Diffusion желаемый результат. Особенно это касалось мелких деталей, которые приходилось потом дорабатывать дополнительными проходами генерации в режиме Inpaint.

В какой-то момент меня посетила идея: а что, если в качестве скетча использовать не осмысленные изображения, а некий шум, максимально примитивный набор цветовых пятен. Для работы в Stable Diffusion использовалась сборка от AUTOMATIC1111

Промт (одинаковый для всех скетчей):

associations, masterpiece, 8k, detailed

Параметры генерации:

Steps: 25
Sampler: DPM++ 2M Karras
CFG scale: 7
Size: 512×512
Denoising strength: 0.62 - 0.675

Для улучшения финального результата использовалась Lora "Detail tweaker" и расширение ADetailer

Результаты получились довольно интересными. Итак.

Набросок 1

Результат генерации

Набросок 2

Результат генерации

Выводы

Различные модели выдают отличающиеся результаты, не всегда получается что-то интересное, порой приходится дорабатывать изображение в Inpaint. Но следить за процессом интересно, так как никогда точно не знаешь, что получится на выходе. Пока по наблюдениям можно сказать следующее:

большое количество размытых пятен часто даёт эффект полного расфокуса, так что желательно наличие пятен, имеющих чёткие границы
светлые зигзагообразные линии чаще приводят к появлению на изображении человека (обычно девушки, причем иногда не совсем одетой)
худшие результаты получаются на светлом однотонном фоне c малым количеством одноцветных чётких пятен. Чаще всего в кадре появляются невнятные фигурки, а то вообще какая-то абстракция, лишённая смысла
интересные результаты дают вертикальные линии на фоне размытых разноцветных пятен
лучше всего себя показывает модель Art Universe, Epic Realism и Dreamshaper 8

Ещё больше скетчей и результатов есть в моём телеграмм-канале. Эксперименты продолжаются.

Хабы:

Генерация изображения в Stable Diffusion по простому скетчу

Введение

Набросок 1

Набросок 2

Выводы

Публикации

Ближайшие события