RigidStyle 13 окт 2023 в 23:51

Паровозик, который смог (генеративные нейросети, в частности Stable Diffusion, что это и зачем)

Простой

27 мин

9.1K

CGI (графика)*

Из песочницы

Recovery Mode

+19

Комментарии 18

Algrinn 14 окт 2023 в 00:27

Угу, Open Source ещё можно спасти. Добро ещё может победить.

ilyar 14 окт 2023 в 09:57

Очень увлекательная история. Спасибо за отличную работу.

Жду когда появится достойные нейронки для работы с 3D. Закономерно что сначала всё классное выходит для 2D. Дополнительное измерение пока что слишком сложное для нейронов, но что скоро и оно поддастся уверен на все 100%. Вот тогда заживём (шутка )

engine9 14 окт 2023 в 11:08

Спасибо за увлекательную статью, согласен с автором почти во всём. Год назад сам попробовал MJ и локально SD и словил незабываемую смесь восторга и "залипалова".

И тогда я уже понял, что профессия художника и дизайнера вымрет. И стал вкатываться в область не связанную с ИТ. И пока не пожалел. Но продолжаю рисовать для души, используя планшет.

Недавно видел на одном интернет форуме пользователи равлекались создавая впечатляющие генерации на сервисе майкрософт. Они вовсе не похожи на лощенно-артстейшенский стиль MJ, посмотрите.

Hidden text

Джокер в затапливаемой дерьмом серверной, запросто.

RigidStyle 14 окт 2023 в 11:20

Да, круто получилось.
По моему (но не точно) сейчас "сервис майкрасофт" работает на "далли-2", и он очень неплохо понимает запрос благодаря ЖПТ, что прикручен сверху как интерпретатор промпта. Отсюда и такие "попадания в запрос", чего очевидно не может ни SD ни Mj.
На SD можно повторить стилистику (любую) через Lora и гиперсети, ну то есть там не проблема сделать такой стиль как на последней картинке, но с промптом придется повозиться, что бы сделать "джокера в серверной, которую затопило".

ryba1967 14 окт 2023 в 11:38

Скажите, пожалуйста, какой личный опыт в художественной области? Умеете рисовать? Худ школа, профильное образование? Вы упоминаете опыт преподавания 3d - как туда пришли, самоучка, работа? Просто крупными мазками. Вы сейчас пишете книги и для них делаете иллюстрации?

Спасибо за хорошую статью

RigidStyle 14 окт 2023 в 11:58

Занимаюсь профессионально архитектурной/интерьерной визуализацией, а так же смежными областями, такими как визуализация мебели для каталогов и т.д.

В контексте опыта/уровня в архивизе: мои работы были отобраны в официальную галерею корона рендер, были опубликованы в галерее врей-ворлд, были опубликованы в журнале от "рендер-ру". Авардов нет (не ставил такой цели).

Рисовал немного в детстве (рисование карандашом, ручкой). Инженерно-конструкторское образование (машиностроение). Преподавать у меня неплохо получалось, преподавал не только интерьерную/архитектурную визуализацию, но и иногда тренера подменял в спортивной секции, где занимался спортом, и в институте часто "преподавал" товарищам по общаге то, что им было не понятно, да и много где еще (хотя конечно это назвать верно не преподавание, а репетиторство). Ну а как занялся архивизом, то были желающие из числа знакомых, кто тоже хотел обучится этому ремеслу, а мне нужны были помощники в работе, и я был и не против их чему то научить. Ну а после кто-то привел друзей и т.д. Я этим не особо долго занимался (это не какие то курсы или школа, а просто около десятка человек), и преподавание не моя проф. деятельность, а скорей я в этом как в том анекдоте - "люблю ковать, не могу не куя".

На счет книг. Да, пишу. Но это не проф. деятельность, а хобби. И да, для книги нужна была обложка, и я решил ее сделать при помощи нейросети, ну и заодно потрогать это более комплексно. Ну а так кое какой опыт уже был в плане создания графики, и я изначально относился к нейросети как к исполнителю, а не карандашу (так как давно работаю как арт-директор, только изредка делая что то руками сам), то мне прям понравилось. И пока трогал наделал всяких дополнительных артов, попутно разбираясь.
Задачу ставил не "наделать красоты как получится", а "сделать то, что нужно, и так, как нужно". И был удивлен, что оказывается это возможно.

ryba1967 14 окт 2023 в 12:10

Спасибо!

qwerty_is_my_best_pass 14 окт 2023 в 13:47

На самом деле статья кажется слишком оптимистичной и преувеличивает возможности нейросетей в сравнении с художниками. Почему так считаю:

нейросеть не может создать свои мелкие характерные особенности (штрих, нажим, детализация, специфика лиц или цветов), но они всегда есть у художников даже когда арт сравнительно прост (манга/комиксы), а эти особенности дают харизмы и эмоционального отклика у читателя
нейросеть не может работать с композицией, т.е. выставить человека в контрапосте, расположить все по правилу третей или спиралью и следовать некому выбранному валёру - я не видел свидетельств того, что это сейчас можно управляемо делать
нейросеть не может делать оммажи или пародии, тут либо копирование, либо копирование с изменением стилистики, но на оммажах и пародиях очень и очень многое строится
нейросеть не может понимать смысл того что рисует, поэтому некоторые критически важные детали ей в принципе никогда не сделать. как правильно держать оружие, что такое нипели, а что такое фиксаторы покрышек у эндуро мотоцикла, как устроена кабина самолета и прочее прочее прочее, все что хоть немного специализировано - нейросети недоступно

Так что сложно назвать нейросеть глупым художником, не дотягивает. В целом - бездумный арт, не связанный либо связанный с чем-то слабо и не претендующий на особый стиль и наличие некой "глубины" это то что мы сейчас можем получить. И да, он где-то нужен, но эта потребность раньше была закрыта фотостоками и стоками арта, где все подряд рисовали все подряд.

В остальном между сложной иллюстрацией которой занимаются профессиональные художники и возможностями нейросетей сейчас просто огромная, колоссальная пропасть. И замечу что скорее всего рост возможностей нейросетей предполагает экспотенциальный рост входных данных, а значит и железа, так что едва ли они продолжат развиваться с той же скоростью.

P.S.

Если что я за нейросети и считаю что их не стоит недооценивать. Лично я очень жду фрагментароного включения нейросетей в какие-то части процесса работы с графикой как стандарта индустрии, тут конечно простор большой, применить их можно, но пытаться заменить ими художника...ой как рановато.

Emulyator 14 окт 2023 в 14:28

нейросеть не может создать свои мелкие характерные особенности (штрих, нажим, детализация, специфика лиц или цветов),

Зато может использовать и сочетать чужие характерные авторские стили, если в обучающих датасетах такие присутствовали с соответствующими тегами. Много художников могут переключать авторский стиль? )

RigidStyle 14 окт 2023 в 14:30

Отчасти вы правы, отчасти нет.

Пройду по пунктам.

Сначала отступление. Когда вы говорите что нейросеть "не может", вы имеете в виду что она сама не на сколько талантлива и умна, что бы это делать, или человек (оператор) не может этого сделать при помощи нейросети? Если первое, то да, не может, если второе - то оператор может (с некоторыми ограничениями).

Штрих, нажим, детализация.
Да, нейросеть не может сравниться пока с художником формата Влопа или Джамы, я полностью с этим согласен. Но я писал про "штат художников". Особенности таковы, что в штате есть условно один "влоп", и три десятка "рабов" (их по другому называют в индустрии, но пусть будет это слово как самое близкое по смыслу), занимающихся раскрашиванием, рисованием поз, раскадровок, эмоций и прочего. Такие же люди есть в других отраслях (копирайтинг, литература, 3д и т.д.). Более того, сам художник машет кистью и делает мазки определенные, а не другие, потому что у него свой набор кистей есть, настроенных, и уникальных. То-есть там нет ничего магического. И его работа во многом рутинна и зависит от его набора инструментов. И эти инструменты и технику можно скопировать.
Таким образом то, о чем вы говорите, это половина именитого художника, а есть еще другая половина, и пол сотни "рабов", дорисовывающих за именитым художником. Нейросеть может заменить вторую половину художника. Например можно скопировать/эмитировать стиль, вид мазков и т.д. Можно получить свой стиль, просто смешав два других. А еще нейросеть может заменить оставшихся 50 человек. И в посте я об этом говорил. Но да, пока она не может заменить условного Джаму Джурабаева, и думаю еще не скоро сможет. Но я могу сказать, что уже сейчас можно сократить штат на треть как минимум, заменив каждые десять художников одним оператором SD.

Композиция.
Может. Вот те примеры, что я сделал, посмотрите расположение объектов. Кадр по правилу третей и по золотому сечению. И это сделать просто, и это я сделал руками (нейросеть так не умеет). Да, там на некоторых кадрах очевидно нет явных точек интереса, выделенных контрастно или стилистически, или детализацией, но это тоже можно сделать, просто сложнее (мне показалось что и так пока достаточно, так как лучшее враг хорошего, но потом переделаю некоторые кадры). На других же там и точки интереса, и правило третей, и золотого сечения. И композиция кадра такая, а не другая, потому что я так захотел (я писал о том, что бы делал как нужно, а не как получается). То-есть я заставил/попросил нейросеть сделать так, как мне нужно. И это можно делать и относительно успешно (учитывая, что я работаю с 3д давно, я бы сказал что сложность сделать правильную композицию и трудозатраты в нейросети и в 3д примерно 1к5, где в 3д сделать сложнее/дольше).

Пародии.
Да, она не понимает эмоций (но почему? я думаю потому, что ее просто не научили, при обучении модели использовали такие датасеты, где этого нет). Но когда мы говорим, что она не может, то опять же, важно уточнить, не может сама или не может оператор? Просто если второе, то оператор может (обучить лору, загрузить скетч, референс, подобрать промт, дообучить модель, и таки научить нейросеть делать то, что нужно оператору, можно, причем важно, что для того, что бы она делала то, что нужно, не обязательно что бы она понимала то, что она делает, так как оценивает результат человек, и человек решает, удовлетворяет он условиям задачи, или нет).

Ниппели.
Вы тоже не нарисуете ниппель, которого ни разу не видели. Аналогично как и кабину самолета. Попробуйте нарисовать вот сейчас, без фото, кабину як17, сможете? Не думаю. И я не смогу. И никто не сможет. Даже тот, кто сидел в этой кабине не один раз. Я писал про рисование бегемота по описанию. Вы покажите нейросети ниппели, научите ее, и она будет их рисовать. Аналогично с оружием. Оружие правильно не умеют держать не только нейросети, но и те, кто с ним пользуется в реальной жизни. Так же как и руки не умеют рисовать те, кто художник (сложно это). То-есть я не говорю, что нейросеть - гениальная вещь. Я говорю что по совокупности параметров она лучше большинства специалистов. Плюс ее можно дообучать, и она не будет кривить лицо и говорить, что сама знает, как лучше.

Про "глупого художника". У меня есть опыт выдачи задач и управления художниками, и я знаю, какие есть художники и как сложно с ними коммуницировать (не все конечно, но некоторые), и сравнивая их с стейбл дифьюжин, даже при условии плохого интерпретатора, с ней все равно "проще". А еще у нее не бывает свадьбы друга вчера или записи до зубного завтра, и не нужно с ней решать проблемы недостатка мотивации и т.д. Тут же разговор не о сферической нейросети в вакууме и ее возможностях, а об использовании конкретной нейросети в текущих реалиях индустрии. И в текущих реалиях это глючное и тупое г-но, где баг на баге, и вообще такое ощущение, что это "пре-альфа-билд" (я писал, что я не слона продаю, поэтому могу называть вещи своими именами), но она конкурирует не с "идеальной версией себя", а с людьми, и просто оставляет без работы две трети штата. Потому что хоть она и г-но, но она лучше по совокупности параметров, чем две трети штата (быстрее, красивее, продуктивнее, меньше делает мозги, и т.д. много критериев). Заменяет ли одна нейросеть одного художника? Нет. Заменяет ли одна нейросеть (с одним оператором) 10 из 15 художников в штате студии? Да. И главный месседж поста был именно об этом.

Про последние ваши два абзаца. В вашем комментарии есть знакомые заблуждения, которые свойственны человеку, попробовавшего миджорни (или аналоги) год назад. Я слышал тезисы, которые вы приводите, уже не один раз от разных людей, попробовавших миджорни или другую нейросеть через веб сервис, и попробовавших сделать картинку через промпт. Я сам так думал, пока не попробовал сделать то, что мне надо, так, как мне надо, и смог это сдать, а потом еще и еще (но важно понимать, я это смог сделать как заказчик и/или как арт-директор, а не как художник, я был на всех трех позициях и периодически их меняю, и могу сравнивать). Я уже писал в посте, что разговор не о миджорни, и не о том, что было год назад.

На счет включения нейросетей в фрагментарные процессы. Да, это круто. Например сейчас в ФШ это пробуют нормально внедрить, получается местами. Еще пример - раньше сделать людей на 3д рендере была та еще задача. Сейчас просто берем кривую 3д модель человека, рендерим, потом инпеинтим нейросетью, получаем реалистичного человека. И таких способов использования уже не мало.

P.S.
Добавлю еще на счет того, что не оператор, а именно сама нейросеть "не может" или "не понимает". Я потратил сотню часов на общение с Бард и часов 30 на общение с ЖПТ. И скажу, что оно очень много понимает. Иногда на сколько много, что волосы шевелятся на заднице от осознания того, что оно может и во что это может вылиться. И если Бард это может (понимает, вникает в контекст, сюжет, смыслы), то это сможет и SD, если к ней прикрутить условный Бард или его аналог. То-есть нейросеть, понимающая юмор и рисующая скетчи, это не концепция или "фантастика", а вполне реальная и решаемая задача в текущих реалиях. Просто еще не решенная. Более того, все это развивается очень быстро. Так например ЖПТ уже прикрутили к далли3. И оно работает очень даже. И это за полтора года развития этого всего. Что будет еще через полтора года?

Kristaller486 14 окт 2023 в 21:35

Ко всем пунктам, кроме последнего стоит прибавить слово "пока". Нейросеть пока не может. По последнему пункту - есть исследования, которые прикручивают мощную языковую модель к диффузионной и получается относительно глубокое понимание подсказки, например DeepFloyd IF. По тому же принципу судя по всему работает dalle-3 с впечатляющим уровнем понимания подсказки, композиции и всего такого. Поэтому все это решаемо, проблема пары лет.

Arxitektor 16 окт 2023 в 09:33

По использованию на локальной машине. Как я понял мне нужна сама модель Stable Diffusion актуальной версии и интерфейс к ней.

По интерфейсу что сейчас самое актуальное / удобное ? Я пока остановился на AUTOMATIC1111/stable-diffusion-webui. Или сейчас есть более актуальные / удобные версии интерфейсов?

Не могу понять где мне скачать актуальную модель самой stable-diffusion. И какие сайты с моделями посоветуете ?

RigidStyle 16 окт 2023 в 12:07

Здравствуйте.

Есть разные версии интерфейсов, от базовых до нодовых. Выбор инструментов зависит от задач. Можете найти соответствующие сервера в дискорде по теме SD и там задать свои вопросы (например AI Diffusion). Сейчас ваш вопрос, в том виде, в котором вы его задали, выглядит как вопрос "какая машина лучше" от человека, который даже не знает, нужна ли ему машина вообще.

Если вы хотите взять консультацию у меня, то можете добавляться в группу, стоимость консультации аналогична стоимости репетиторства.

wickated 17 окт 2023 в 12:30

Ну, стабле сейчас нагромождение кривых костылей и не работает нормально на типичной "игровой" видяхе с 8гигами. Никаких вменяемых гайдов нету не потому что лутают бабосы те кто всё знают и умеют, а потому что никто не знает всего.

П.с. на пустой промт нарисовало тонну жрачки и это было идеальное отражение моих мыслей в тот момент.

П.п.с. про генеративные сети есть старая восточная присказка про слепых мудрецов и слона.

RigidStyle 17 окт 2023 в 21:19

Да, в целом так и обстоят дела сейчас с этой всей историей. И тут даже дело не в том, что "никто не знает всего", а в том, что по большей части там "магия". Во всяком случае с подбором токенов. Так как никто не знает кто как описывал датасет, и в итоге какие токены за что должны отвечать и что давать. И приходиться угадывать чисто. Но за несколько часов возни в принципе получается угадать.
Единственное что на видеокартах игровых она в принципе работает, просто часто любит ошибки выдавать. Ну и очень сильно зависит ее скорость работы от поколения (думаю что дело в драйверах).
У меня тоже были приколы с пустыми промптами, когда я часов 6 пытался сделать арт, но сам не знал что хочу. После просто оставил промпт пустым в режиме "инпеинт" с высоким денойзом, и получил то, что нужно. Это выглядело как будто бы "отвали, дай я сам сделаю", со стороны нейросети.

engine9 19 окт 2023 в 15:18

Скажите пожалуйста, насколько реалистичен такой сценарий: 3D художник создаёт грубую визуализацию (как на картинке) а нейросетка дорисовывает в "мультяшном" стиле + добавляет мелкие детали, типа травы, текстурок, складок на одежде и т.п.

Но обязательно должны сохраняться эмоции и черты лица персонажей. Только статика нужна.

RigidStyle 19 окт 2023 в 21:21

Как видите, это можно сделать. Потратил 10 минут на все про все, без каких то сильных ухищрений. Как говориться, фигак фигак, и готово. Да, видны косяки с фоном, или странная шея на последнем кадре, видно косоглазие и т.д. Но суть думаю понятна. Если вышлифовывать и повозиться пару часов, то можно сделать довольно качественную работу.

Количество деталей ограничено только фантазией. Можно локально увеличивать детализацию до бесконечности. Пример:

Это не моя работа, просто дернул у кого то на цивитай

Есть методы и инструменты по увеличению детализации.

Еще та сцена с космическим кораблем, что я прикрепил к посту, там тоже 3д модель взята за основу. Но там конечно посложнее, чем тут, хоть принцип и тот же.

engine9 20 окт 2023 в 01:38

Вау! Круто.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Паровозик, который смог (генеративные нейросети, в частности Stable Diffusion, что это и зачем)

Комментарии 18

Публикации

Истории