gygavolt 20 сен 2023 в 11:57

Генерация изображения в Stable Diffusion по простому скетчу

Средний

3 мин

12K

Обработка изображений*CGI (графика)*Искусственный интеллект

Обзор

Комментарии 8

Emulyator 20 сен 2023 в 12:35

Мне показалось, что в статье нет того, с чем нельзя "ознакомиться в многочисленных статьях и видеообзорах в интернете".

MountainGoat 20 сен 2023 в 14:33

Я раньше любил написать в запрос только "nothing" и так генерировать. Получалось крипово: бескрайние поля и пустые коридоры перемежаются с портретами стариков, флагами какими-то, и космосом.

Но теперь нужны старые модели: более современные, даже на базе 1.5, все выдают либо пятна, либо пытаются написать слово nothing.

vassabi 20 сен 2023 в 16:40

.... мда, и все эти картинки не нарисованы человеком (спустя несколько часов), а сгенерированны за считанные минуты. Каждый раз смотрю и каждый раз чуствую себя как папуас перед первым фонографом О_О

Emulyator 20 сен 2023 в 19:18

Так то оно так, но надо помнить, что на имеющихся моделях можно сгенерить далеко не все что хочешь, сколько ни упрашивай. Решить такие задачи можно дообучая сеть тем или иным способом на базе картинок-примеров нарисованных/сфотканых человеком.

Quiensabe 21 сен 2023 в 04:25

Как показала практика, при значениях ниже 0.5 практически на всех моделях и при любых прочих параметрах генерации, финальное изображение максимально упрощалось и стремилось к наброску. При значениях в диапазоне от 0.5 до 0.6 чаще получались картинки в мультяшном стиле, при этом негативные промты на результат влияния почти не оказывали

Этот параметр не предназначен для работы с набросками. Вы по сути хотите не определять близость результата к наброску, а определять близость наброска полученного из результата, к вашему исходному наброску. Ровно для этой цели и создан ControlNet.

gygavolt 21 сен 2023 в 05:43

Этот параметр предназначен для работы с изображением. И он активен только в режиме img2img. В любых вариантах: Sketch, Inpaint, Inpaint sketch. Насколько я понимаю принцип работы, Denoising strength определяет величину зашумления исходного изображения. И как показала практика, финальный результат очень чувствителен к данному параметру. Причём, такое впечатление, что критическим порогом является значение в районе 0.5, ниже которого исходный скетч практически не деградирует, сохраняя и форму и цветовые компоненты. А выше - появляются нюансы.

Quiensabe 21 сен 2023 в 11:27

Принцип работы, Denoising strength меняется в зависимости выбора других параметров, и в целом он несколько сложнее. Вот тут неплохо описано с примерами.

Если упростить, то да, можно сказать, что этот параметр определяет насколько будет преобразовано исходное изображение во что-то новое. С этим я никак не спорю.

Смысл моего комментария в том, что конкретно в задаче превращения скетча в полноцветное изображения нужно использовать соответствующий инструмент. Используя для этого Denoising strength вы создаете среднее между фотографией и наброском, поэтому и получается ерунда, или фото непохожее на то что нарисовано на наброске, или недо-фото похожее на набросок, но убогое само по себе. В середине компромисс, который одинаково плох с обоих сторон.

У ControlNet есть похожий параметр - Control Weight. Но он при генерации будет делать скетч из промежуточных версий результата (похоже на фильтр выделение границ в фотошопе), и сравнивать ваш набросок с ним. Это позволяет превращать рисунок в фото (а также многое другое). Что и показано на моем примере.

vassabi 21 сен 2023 в 13:58

вотвидите - чем нейронки прикольнее обычных приложений - в них можно засовывать всякую фигню, не только специально подготовленные данные и они все равно как-то работают :) (а не просто падают)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий