Материализация чувственных идей, или как я использовал нейросети для создания украшений / Habr

Когда появились неросети, рисующие картинки, я подумал: "Как здорово! Это обязательно надо использовать!" О дальнейшем вы догадываетесь. Оказалось, что нейросеть классно рисует "что-нибудь".

Результат, выданный сетью Midjourney на запрос "Что-нибудь в стиле Ван-Гога"

Но заставить ее нарисовать что-то конкретное - задача даже более творческая, чем у обычного художника (я определяю творчество как решение задач, не имеющих алгоритма решения). И все-таки мне удалось научиться применять нейросети на практике, причем в разных областях. В этой статье я расскажу, как с помощью нейросетей создал вполне материальные, ощутимые пальцами, украшения.

Но начинается эта история с моих попыток использования нейросетей в графике.

Довелось нам делать мэппинг для театра. Это была видеопроекция на стену в фойе театра, эдакая своеобразная подвижная афиша. Спектакль рассказывал историю Стивенсона про Остров Сокровищ, и для ролика мне нужен был Веселый Роджер. В принципе, нарисовать его не сложно, или можно купить на стоке. Но я подумал, а не попробовать ли для решения задачи новые технологии. Зашел я в Midjourney и говорю. Дай мне, дескать, череп в треуголке. "Skull in a cocked hat". И что бы вы думали? ИИ мне выдает гламурный такой череп в кокетливой шляпке. Видимо он так понял "cocked hat".

Череп в кокетливой шляпке. Результат генерации нейросети Midjourney

Я уточнил, что череп мужской, и мне нарисовали гламурный мужской череп в кокетливой шляпке :)

Подходящий череп я в итоге сгенерил, треуголку пририсовал руками ("треугольная шляпа" - кстати, релевантно выдает треуголку, но наступает момент, когда время поджимет, и быстрее просто нарисовать).

Это была присказка. Теперь начинается сама история.

Смотрю я на получившмеся черепа, и думаю. А ведь выглядит как украшение. И решил сделать из этого черепа кулон. Ну или серьги. Я давно занимаюсь изготовление таких вещей.

Увы, нейросети пока не умеют 3D (точнее, уже подбираются, но результаты, пока довольно невзрачные). Так что пришлось придумывать, как из плоской картинки сделать 3D модель.

К счастью, одним из моих многочисленных занятий, является 3D-фотография, и я давно уже умею создавать из плоских картинок их карты глубины.

Во-первых, надо сгенерить подходящее изображение. Его сразу нужно делать черно-белым.

Сложности начинаются с этого места. Работа с нейросетью, это как работа с живым гениальным но витающем в своих фантазиях художником. Поэтому, изображение создается в несколько этапов. Сначала я делаю картинку в Midjourney, затем отдельные часть меняю через inpainting Stable Diffusion, и в итоге дорисовываю детали в фотошопе.

Как нарисовать сову. 1. Рисунок созданный в Midjourney, 2,3. изменение отдельной области через inpainting Stable Diffusion, 4. Дорисовка в фотошопе

Далее нам необходимо получить карту глубины. В идеале было бы создавать карту глубины сразу, но на слова "depth map" нейросеть не генерирует ничего подходящего. Гораздо более похожий на карту глубины результат (но все равно недостаточно удовлетворительный) получается по словам "ambient occlusion". Но и этого недостаточно.Когда видишь черно-белый рисунок, очень хочется его прямо сходу использовать как карту глубины. Но, увы, он не обладает такими свойствами. Так, на картинке слева, видно, что правая сторона солнца и правая сторона правой девушки в тени, а на объемной модели это будет выглядеть так, будто часть лиц оказывается дальше затылка. Это нем совсем не подходит.

Изображение, созданное Midjourney и его карта глубины, созданная с помощью MiDaS

И тут нам на помощь приходит другая нейросеть, с которой я был знаком еще до появления рисующих нейросетей. Эта сеть называется MiDaS. Она по готовым изображениям создает карты глубин. Более того, для Stable Diffusion существует скрипт, которые создает карту глубины сразу же после генерации изображения. А на днях вышла Stable Diffusion 2.0, в которой карта глубины используется отдельным слоем при генерации изображений!

Увы, такая карта глубины недостаточно детализирована. Ее хватает для создания стереофотографий, но совсем не хватает для создания барельефа. Поэтому приходится колдовать с картой глубины, самим изображением, и дорисовывать что-то вручную, чтобы получить удовлетворяющий тебя самого результат. Помните? Творчество - это решение задач не имеющих алгоритмов решения.

После получения карты глудины, дальнейшее - дело техники. По этой карте можно создать объемную модель или в Artcam, или в блендере, или даже в некоторых слайсерах. А дальше, печать на фотополимерном принтере, ручная раскраска и вуаля:

Вот так причудливые фантазии нейросети обретают плоть, и начинают жить в материальном мире.