Как стать автором
Обновить

Со Stable Diffusion вы можете больше никогда не поверить увиденному в онлайне

Время на прочтение9 мин
Количество просмотров57K
Всего голосов 82: ↑80 и ↓2+78
Комментарии85

Комментарии 85

Добавлю тут к переводу от себя. Для меня давно актуален вопрос «чем иллюстрировать хабрапосты»: в технических темах бывает сложно подобрать открывающую картинку.

И в связи со Stable Diffusion стало интересно: можно ли генерировать КДПВ с её помощью? Решил скормить какие-нибудь «хабровые» промпты ей и другому нашумевшему проекту Midjourney.

Вот как, оказывается, они представляют себе «Java Developer» (во всех примерах ниже сначала результаты SD, потом Midjourney):

Hidden text


А поскольку я пишу о наших готовящихся конференциях вроде Joker, попробовал «joker java developer conference», вылез некий «жапкин жопер»:

Hidden text


Окей, понятно, тут Midjourney за название зацепилась. А если взять другие наши конфы с менее окрашенными названиями — вроде DotNext?

Hidden text

Интересная разница подходов: Midjourney уходит в абстракцию, а Stable Diffusion пытается сделать конкретику вплоть до надписей (но, к сожалению, в них не преуспевает). 

В итоге у SD получаются слишком криповатые картинки для использования как КДПВ, а у Midjourney просто красивенькие абстрактности, и их использовать-то можно, но связь с темой минимальная. Ну, хотя бы в запросе «the spirit of java» логотип языка обыграл:

Hidden text

Ну, собственно, в статье и говорится, что чтобы создать приемлемую картинку нужно быть prompt engineer, а не просто скормить ему первую попавшуюся фразу

Конечно, у prompt engineer получилось бы лучше. Но тут главная загвоздка-то не в том, чтобы донести свою идею до машины (как обычно бывает и в чём может помочь prompt engineer), а в том, чтобы эта идея вообще возникла: чем иллюстрировать «текст про Java 19»?

И поэтому захотелось проверить: может быть, у самой машины есть идеи по этому поводу? Как она на первые попавшиеся джавовые фразы отреагирует?

Midjourney умеет неплохо обыгрывать идеи если они широко известны, какой-то мейнтсрим - к примеру неплохо реагирует на страны, задать ему Россия + что-то или там Франция + что-то - он может как-то интересно и неожиданно это обыграть.

НЛО прилетело и опубликовало эту надпись здесь

Попробуйте "Duke, the Java mascot discovers new Java features in a treasure chest"

Четвёртая прям огонь. Так и представляю себе какой-нибудь опен-эйр фестиваль, ярмарка, там всякие сувениры и поделки, всякий хендмейд крафт и рукоделия, и среди всего — эта милая собачка-кошелёк. Ябкупил.

Каков датасет, таков и результат работы обученной на нём сети. Если в скормленных картинках много "котиков" и мало "ява-девелоперов", то само собой с генерацией сюжетов про разработку у такого ИИ будут проблемы, но "котики" должны получаться отменными.

Народ очень просит сгенерить %LANGUAGE_NAME% Developer хотя бы для 10 самых популярных языков.

Попробовали, какой-то принципиальной разницы между разными языками не обнаружилось (разве что у питонистов одна из картинок — змеиная чешуя)

Вот ссылка на подборку: https://imgur.com/a/ccL1pRC

Там по несколько картинок про Python, C#, PHP, Go, JavaScript, Kotlin (именно в таком порядке), и сейчас не подписано где что (могу подписать), но в целом ясно по надписям на картинках, в них постоянно буквы из названия языка

Программисты у сетки получаются криповенькие. Прясм смотришь, и понимаешь: да, именно так мы и выглядим для других людей нейросетей.

C.Charop очень понравился.
PHP полностью отражает реальность.
JJVAJPSIT DETOEPER убил.

Python, PHP, Java, Kotlin
image

Среди очевидного обилия сидящих за компом людей попалось и что-то весёлое. Уточнять, для какого языка это сгенерилось, я, пожалуй, не буду, а то побьют.

Hidden text

2-4 слова читаются на раз: Editor, developer, developer. С первым моя внутренняя сетка не справилась, датасет ограниченный.

Spirit of Java

Java developer x6


C++ Developer x6


Go developer x1

чем иллюстрировать хабрапосты

Быстрее и проще найти на Викискладе фотографию, которую можно использовать по свободной лицензии.

По запросам со словом Java там в основном индонезийский остров находится.

Ну вот открываю я эту страницу, вижу там фрагменты кода на арабском, логотип фреймворка Google Guice и иллюстрации из старой немецкой книги «Internet Programmierung mit Java». Вопрос: если готовится, для примера, пост про Java 16, то что из этого хорошо подойдёт как открывающая картинка?

Для поста про Java 16 лучше всего подходит картинка, на которой изображён фрагмент кода, иллюстрирующий некую важную перемену.

Пришла ночная мысль и поразила: содержание картинок = содержание снов. Такие же абстракции, недостаток наполнения и конкретики. Люди или спиной, или с искажёнными лицами. Надписи максимально бессмысленны. Только образы, собранные из разных впечатлений.

Известный тест реальности на происхождение из сна - попробовать что-нибудь прочитать. Рекламу, книгу, цифры на часах. Генератор сна ленив и новой информации вы получите мало (вообще не получите). Я во сне вижу примерно вот это, как у Midjourney.

Интересно, будет ли ИИ так же бояться открытых пространств? Во сне нам часто ставят ограничители на полёты например, часто есть трудности с каким-либо подъёмом - лифты ездят обычно горизонтально (ещё один тест). Предполагаю, это связано с ограничением вычислительной мощности "генератора снов".

И наоборот, можно ли применять приёмы, отработанные на запросах к ИИ, чтобы создавать заказы на сновидения?

Известный тест реальности на происхождение из сна — попробовать что-нибудь прочитать. Рекламу, книгу, цифры на часах. Генератор сна ленив и новой информации вы получите мало (вообще не получите).
Я часто читаю перед сном. Засыпая — я могу продолжать читать книгу, несколько абзацев, до страницы. Это будет логичное и осмысленное продолжение того, что начинал. Но потом просыпаюсь и понимаю, что от момента засыпания был совсем другой текст, а не тот, что я прочитал во сне

Один "философ", увлекающийся психоделиками, во время приёма препарата придумал замечательную концепцию, которая его восхитила и поразила своей глубиной. Он решил её записать, а когда протрезвел, прочитал следующую запись - "Кожура от банана, больше самого банана".

Не! Я не такой ) Я просто засыпаю ))

вы можете больше никогда не поверить увиденному в онлайне

Типо до этого верили, ага.

Вот такая же мысль возникает сразу после прочтения подобных постов.

Фотомонтаж и ретушь делали еще до появления компьютеров. А уж с появлением "фотошопа", при должном умении можно было сделать все тоже самое.

Не знаю, как получают те впечатляющие картинки, которые показывают в подобных статьях. Мне SD ничего подобного не выдаёт. Очень ограниченный набор сюжетов независимо от уточнения описания (меняет незначительные детали на одних и тех же общих контурах), многие вещи из поп-культуры оно просто не знает, или же имеет очень своеобразное представление о них, изображения людей совершенно не фотореалистичны, множество артефактов, типа месива из пальцев, трёх рук и ног, и так далее. Получить адекватное изображение человеческой руки с пятью пальцами у меня так и не получилось. Нет, даже это очень впечатляет, но пока до изменения мира машинной генерации изображений далековато.

Руки оно, похоже, принципиально не умеет, а как получают - смотри https://lexica.art/ - там рядом с картинками запрос на создание пишут.

Спасибо, стало понятнее. А есть гайд, как заставить сеть генерировать пиксельную графику? Она упорно избегает чистых крупных пикселей, в основном выдаёт некую мозаику.

Я сам большими успехами похвастаться не могу, но насколько понимаю, тут три составляющих:

1. Искусство составления промпта. Есть неочевидные полезные кейворды, например, некоторые дописывают к запросу «trending on artstation» — то есть типа «сделай в духе того, что попадает в тренды на сайте ArtStation»

2. Cherry-picking — то есть на каждое удачное изображение, которое мы видим в статьях, приходилось стопицот неудачных и кропотливая работа по «перебиранию стога сена в поисках иголки»

3. Ну и с одними задачами система справляется куда лучше других, так что стоит подстраиваться под то, в чём она сильна. Например, если попросить «сделай под Сальвадора Дали», то внезапно все артефакты изображения людей из багов превращаются в фичи и месиво становится высокохудожественным месивом :)

1. Не пытайтесь сгенерировать всё сразу одним запросом. Первый запрос делает скетч, далее разные области этого скетча дорабатываются последующими запросами. На Хабре есть статья с подробностями.
2. Подсказки. Не получаются руки? Вырезаем откуда-нибудь подходящую кисть руки, кидаем в нужное место, кое-как криво масштабируем/вращаем чтоб более-менее стыковалось. Генерируем в режиме loopback поверх сколлажированного — сетка подгоняет руку по стилистике к основному рисунку, но пальцы уже на месте.
3. Если какой-то персонаж упорно не получается от слова «совсем» (например, никаким запросом вы не сгенерируете Queen Chrysalis, хотя картинками с данным персонажем пол-Интернета завалено), можно взять штук пять изображений-примеров и сгенерировать из них эмбеддинг — своего рода плагин к данной нейронке (они обычно получаются небольшими, всего несколько килобайт), который позволит уже генерировать этого персонажа.
НЛО прилетело и опубликовало эту надпись здесь
Нужен форк с поддержкой Embedding, я использую этот. Создаётся папка, куда кидается набор изображений 512x512. Набор должен быть очень небольшим, не более пяти изображений персонажа, желательно в разных ракурсах или позах.
Далее просто запускается соответствующий скрипт (подробности по вышеуказанной ссылке — раздел «Personalizing Text-to-Image Generation»). На RTX3090 генерация эмбеддингов занимает около часа, после этого в указанной папке появляется файл с расширением pt (он очень небольшой, обычно порядка 5 Кб всего).
Далее его можно использовать согласно гайду: эмбеддинги указываются в качестве параметров при запуске генеративного скрипта, дополняя собою сеть. Эмбеддинг содержит ключевые слова, по использованию которых в запросе он применяется.
Очень многие форки Stable Diffusion поддерживают установку уже готовых эмбеддингов, даже если не поддерживают их генерацию.
Например вот этот форк с удобным веб-интерфейсом (подробности установки эмбеддингов в разделе «Textual Inversion»):
github.com/AUTOMATIC1111/stable-diffusion-webui
Нужно создать папку embeddings и просто кинуть туда pt-файлы с эмбеддингами (да, можно несколько разных эмбеддингов одновременно — все они дополняют собою сеть).
Если интересна теория — каким образом добавление считанных килобайт к сетке позволяет ей «выучить» новых персонажей и новые стили — см. здесь подробное описание метода.

Я немного баловался со Stable Diffusion, но не смог получить впечатляющих результатов, как в статье. Возможно, я плохо составляю запросы.

Лучшее, что мне выдала сетка, - это вот эту картинку на запрос "Mice try to learn Japanese"

Потому что спрашивать надо не то что хотите ВЫ, а понимать, что вам дадут то, как вы спросите. При этом вам не рассказали как спрашивать правильно, нет правил.

По сути нет синтаксиса, ощущение что сетка разбирает морфологически.

Я немного баловался со Stable Diffusion, но не смог получить впечатляющих результатов, как в статье. Возможно, я плохо составляю запросы.
С иллюстрациями такое сработает после некоторого опыта составления запросов, но с реалистическим искусством, напр, в стиле Шишкина и высокохудожественным фото пока вряд ли, да и в перспективе тоже сомнительно. Художники воплощают образ, а он не всегда перекодируется в абстрактное представление, т.е. словесное описание. Всегда имеется недосказанность, по определению абстракции передаваемые словами это сжатое представление информации, т.е. с потерей контекста. Заказчик не может точно передать возникший у него образ словами такому ИИ, а тот в свою очередь будет производить аппроксимацию текста заказа в собственном контексте, с дальнейшим искажением смысла предполагаемого в исходном образе. Художники часто переписывают картины, и не раз, когда чувствуют, что им не удается воплотить желаемый образ. При реставрации картин часто находят следы такого поиска. На абстрактные темы, да, нагенерил 100 штук вариантов, и выбрал наиболее подходящий. Конечно можно подбирать и наиболее отражающий образ, но это уже сфера этики, эстетики и компромисса. Похоже это творчество не плохо ляжет на концептуальное искусство (примеры творчества на продажу) В нем не требуется выражение образа, а как раз выражение некой идеи, ее художественного воплощения, прям как в запросе «Mice try to learn Japanese») Со временем на этом вырастут новые поколения, впитают его, и вполне будут счастливы. Спорить о его художественных достоинствах и недостатках — насколько автор правильно составил запрос и выбрал настройки программы, и приобретать за многие миллионы на аукционах.
Заказчик не может точно передать возникший у него образ словами такому ИИ, а тот в свою очередь будет производить аппроксимацию текста заказа в собственном контексте, с дальнейшим искажением смысла предполагаемого в исходном образе. Художники часто переписывают картины, и не раз, когда чувствуют, что им не удается воплотить желаемый образ. При реставрации картин часто находят следы такого поиска.

Заказчик и художнику не может передать словами возникший у него образ, и художник тоже услышанное интерпретирует по-своему и рисует в рамках своих знаний и умений. В чем тут отличие от ИИ-художника?
Просто потом идет серия правок и перерисовываний обычно после концепта. ИИ это умеет. И в создание концептов, и в перерисовывание на их основе (img2img как раз для этого).

Опять же, когда картина не устраивает — ИИ способен перерисовывать части. Инпейнтинг никто не отменял. Выделяете не понравившееся и регенерируете.

ИИ при правильном промте, должном усердии и комбинировании нужных функций одной модели (или разных моделей вообще) может и в стиле шишкина и прочих делать шикарные картины и иллюстрации. И Digital-художник использующий вместо кистей и фильтров ФШ для рисования иные математические алгоритмы ничем не хуже иных Digital-художников. У него всё еще свои идеи, образы и видение, отличается лишь инструмент для воплощения.

Тут главное понимать, что генеративные модели сами ничего не делают. Творит всё еще человек, а модель — лишь очередной художественный инструмент в его руках, с куда более богатыми возможностями чем в имевшихся ранее инструментах.
Заказчик и художнику не может передать словами возникший у него образ, и художник тоже услышанное интерпретирует по-своему и рисует в рамках своих знаний и умений. В чем тут отличие от ИИ-художника?
Нет, иначе не возникали новые направления в искусстве, и в живописи в частности. Существующий ИИ пока действует в рамках обучающей выборки, комбинируя ее, это относится ко всем видам деятельности, какие запросы и правки ему не задавайте за ее пределы он не выйдет. Принципиально нового он не создаст, как было, например, в случае с импрессионизмом, если брать изобразительное искусство. Он возник под давлением определенных социальных и экономических обстоятельств и складывался постепенно. Т.е. исходно у художников не было этих знаний и умений, они их выработали отталкиваясь от имеющихся на то время, постепенно воплощая возникающие образы. Они искали свои краски, текстуры, выразительные приемы, обыгрывая игру света и тени, работали с перспективой, и тп.

Что касается цифровых художников, то это несколько другое дело. Они более свободны в творчестве, и ограничены только возможностями программных и аппаратных средств. Поэтому в этих рамках могут появляться новые цифровые стили и направления.

Т.е. в чем разница, когда воплощается образ? Художник исходит из собственного опыта, эмоционального настроя, кот. он при этом получил, и пытается его передать. При этом он может использовать совершенно разные приемы, и изобретать новые. А что делается при заказе ИИ? Просто подбирается подходящая фраза на тему. Можно выбирать из стилей, в стиле того же импрессионизма или реализма под Шишкина) Но это всегда будет компромисс, ни сравнимый с возможностями художника. Конечно речь не идет о ремесленных поделках.
Тут главное понимать, что генеративные модели сами ничего не делают. Творит всё еще человек, а модель — лишь очередной художественный инструмент в его руках, с куда более богатыми возможностями чем в имевшихся ранее инструментах.
В этом то и проблема, когда у ИИ появится собственный ввод, собственная мотивация и непрерывное обучение, и он сможет творит сам по себе или в диалоге с человеком, то тогда будет качественный скачек. А так инет в скорости завалит еще большая масса бездарщины, как от простых пользователей, так и продвинутых художников. Рисовать то стало намного проще, без всяких навыков и способностей к воображению, и главное задешево)) планка в очередной раз понизилась.

ps. В действительности восхищен возможностями ИИ в различных областях творчества, особенно такой, ближе по интересам, но пытаюсь оценивать это реалистично.
А что делается при заказе ИИ? Просто подбирается подходящая фраза на тему. Можно выбирать из стилей, в стиле того же импрессионизма или реализма под Шишкина
Очень многие художники, по крайней мере — так они себя называют, действуют очень сходим образом :) Ремесленники, как вы заметили. Вот их — можно попытаться заменить подобными ИИ, только надо существенно увеличить выборку для обучения. Причем — «ремесленник» — это не ругательство, не унизительное обозначение типа «не творец». А вполне позитивное обозначение людей, которые работают на поток, например — иллюстраторы.

Другой вопрос в том, что если художник, хороший ремесленник, натаскает эту нейросеть на своих работах и будет пользоваться ей для генерации множества иллюстраций типовой фантастики, к примеру «средневековый рыцарь, размахивает бластером, защищая прекрасную полуобнаженную землянку от кровожадного инопланетного спрута».

Весьма неплохое подспорье для ремесла, а применяющий его будет настоящим художником, с образованием и большим опытом
Причем — «ремесленник» — это не ругательство, не унизительное обозначение типа «не творец». А вполне позитивное обозначение людей, которые работают на поток, например — иллюстраторы.
Так проблема в том, что это все отвянет со временем. Зачем автору произведения, напр, литературного просить иллюстратора сделать к ней иллюстрации? Объяснять ему идеи, когда у него свой образ имеется, и он может воплотить его сам да какой-то степени. Рисовать-то теперь не надо уметь) а сочинить нужную фразу, как раз ему с руки, а не поручать это кому-то, тратить на это время и средства.

Из собственного опыта «иллюстрирования» на Хабре в коментах. Иногда хочется излагаемую идею, иногда интуитивную, некий образ выразить не только словами, но и в изображении. Как кажется это должно помочь оппоненту воспринять излагаемое лучше. Поскольку не могу рисовать, хотя в детстве немного увлекался, то единственный доступный способ для меня это делать коллажи из готовых картинок из инета, добавляя что-то от себя. Поступаю тупо как этот самый ИИ) но конечно имею преимущество в сравнении с ним, т.к. представляю образ некоторой идеи, кот. хочу передать, выразить ее смысл наглядно.
Фиг знает насколько успешно для понимания другими, вот примеры 1 и 2 (коллажи под спойлерами). Это достаточно сложные образы выражающие некоторые представления личного характера на стыке когнитивной психологии и физического познания. Не думаю, что их можно было бы выразить фразой, и дождаться от ИИ чего-то путнего) Это конечно сложная область, для художественных произведений добиться удовлетворительного результата проще, тем более оформления сайтов. От человека художника можно получить результат лучше, но все равно объяснить бывает сложно, для этого он должен что-то понимать в этой области) Так будет с ИИ в будущем, когда он будет основываться на когнитивной архитектуре, т.е. быть ближе к возможностям человека.
вот примеры 1 и 2 (
Ух ё… )) Сурово так)

Так проблема в том, что это все отвянет со временем. Зачем автору произведения, напр, литературного просить иллюстратора сделать к ней иллюстрации? Объяснять ему идеи, когда у него свой образ имеется, и он может воплотить его сам да какой-то степени. Рисовать-то теперь не надо уметь) а сочинить нужную фразу, как раз ему с руки, а не поручать это кому-то, тратить на это время и средства.
Кажется в прошлой теме было обсуждение двух иллюстраций на схожую тему: футуристичекий город, машины на дороге и тп. Картинка художника была хоть и устаревшая, но в ней была некая «история» — целостность. Картинка нейросети была ярче и современнее — но сумбурна и выглядела разрозненной

Так что, иллюстраторы еще поживут

А что делается при заказе ИИ? Просто подбирается подходящая фраза на тему. Можно выбирать из стилей, в стиле того же импрессионизма или реализма под Шишкина) Но это всегда будет компромисс, ни сравнимый с возможностями художника. Конечно речь не идет о ремесленных поделках.

С вашим подходом можно прийти к тому, что и работа программиста сводится просто к подбору подходящего текста, по которому компилятор потом рождает бинарник.

В целом как вам сказать... Человек рождает идею, придумывает образ, придумывает описание образа, придумывет вариант описания понятный машине, варьирует его over9000 раз ради нужного результата, по каждому варианту делает несколько вариаций картинки до тех пор пока оно хотя бы примерно не попадет в образ, нарисованный в его сознании. Затем скелит картинку, перерисоввает в ней части, которые не нравятся, добавляет нужные референсы (ибо сам дорисовать не может) и перерисовывает еще раз. Потом потайлово апскейлит результат до нормального разрешения и деталей, генерирует финальные вариации, сводит в фш детали из них. И получает шедевральный (иди не очень) цифровой арт. Вы уверены, что уменее водить кистями в ФШ на планшете более творческое, чем это? Тут нейронка лишь в роли более сложной кисти, которая рисует не просто линии и формы, а целые объекты. Но идея, композиция, настроение, атмосфера и образы всё еще за человеком.

В данный момент в инсте идет AI Art contest. Работа на него занимает у меня около 3-4 часов и между выдачей сети (одной-двух из нескольких сотен) и итоговой работой общего только композиция или некоторая её часть (если ни в одну генерацию нужное мне не попало целиком). Буду дома у компа - выложу до и после для примера.

Человек рождает идею, придумывает образ, придумывает описание образа, придумывет вариант описания понятный машине, варьирует его over9000 раз ради нужного результата, по каждому варианту делает несколько вариаций картинки до тех пор пока оно хотя бы примерно не попадет в образ, нарисованный в его сознании.
В целом как вам ответить… вероятно мы мыслим о разном) Что такое образ, если процесс рассматривать в наиболее незамутненном виде? Человек живет, встречается с проблемами, в том числе интеллектуальными, решаете их, эмоционально переживает их, или идет на природу и ее виды вызывают в нем определенный эмоциональный настрой. При этом спонтанно возникают образы, кот. хочется воплотить, без всяких там предварительных идей. Между этим образом и воплощением должно быть минимум средств, кот. навязывают способ реализации. Самые простые, имеющее первобытные корни, это карандаши, кисти и краски, полотно, его умение использовать эти средства, его восприятие, и его образ. Не зря это воплощение лучше всего получалось у импрессионистов и экспрессионистов, у них даже образ жизни был соответствующий. Сложнее, но также ясно у реалистов, не имеются в виду его идеологизированные формы. Это не для заказов, продаж, выставок и тп, кот., пусть и бессознательно, навязывают идеи и способы их воплощения — какие уж там образы. Если что-то и было, то это может окончательно хоронится средствами реализации, кот. в последнее время выполняют все большую часть работы за человека. Использование ИИ это след. шаг в этом процессе, а вовсе не кисть в руках художника) Это убыстрение, удешевление работы, и это в порядке нормы, для потребностей растущего рынка. На этом воспитается новое поколение, кот. будет считать продукты этого производства шедеврами, и это тоже вполне нормально. Это как с многокилометровыми мультсериалами созданными средствами компьютерной графики, от которых тащятся современные дети. Для них это искусство анимации, для меня, например, нет, для меня это старые рисованные руками мультики. Так было всегда. Импрессионистов тоже обвиняли в упрощении изобразительных приемов в сравнении с классическим реализмом в угоду массовости производства картин, из-за возросшего спроса со стороны растущего класса буржуа.

Ажиотаж вокруг этих систем ИИ возник не потому, что они создали что-то новое в изобразительном искусстве, а потому что они на порядок удешевят производство, ускорят его, и упрощают требования к иллюстраторам, вплоть до отсутствия каких либо способностей к рисованию, вот и пример. Просто нужно иметь это в виду, а так зашибись вся эта живопись) и, да, это занудство.

Пример кстати с иллюстрациями:
https://semiurg.ru/neuros/
Недавно автор нехорошо отзывался о стоках, которые и картинки зажали и денег не вернули, а теперь ушел в иллюстрации сетями.

У мыши слева кимоно запахнуто как на похоронах ;)

Интересный failure mode

Грязные технологии производителей видеокарт. То криптовалюта, то img2img...

Запускается и работает на CPU+RAM. Но время генерации возрастает до 7 минут на картинку.

А ведь это уже было в Симпсонах лемовской «Кибериаде». Один в один, только там не изображения, а стихи. Но уверен, что кто-нибудь и стихосочиняющую сеть соберет.

– А теперь на Г! Четверостишие о существе, которое было машиной, одновременно мыслящей и безмозглой, грубой и жестокой, имевшей шестнадцать наложниц, крылья, четыре размалеванных сундука, в каждом из которых по тысяче золотых талеров с профилем короля Мурдеброда, два дворца, проводившей жизнь в убийствах, а также…
– Грозный Генька-генератор грубо грыз горох горстями… – начала было машина, но Трурль подскочил к щиту управления, нажал на рубильник
Вадим Шефнер «Девушка у обрыва»

Творзадание принято! – глухо произнёс голос из прибора, и сразу же вспыхнуло табло с надписью «творческая отдача». Затем из продолговатого узкого отверстия вылез лист бумаги. На нём было напечатано:

Кот и малютки

Здравствуй, здравствуй, кот Василий,
Как идут у вас дела?
Дети козлика спросили…
Зарыдала камбала.
И малюткам кот ответил,
Потрясая бородой:
– Отправляйтесь в школу, дети!..
Окунь плачет под водой.
Добавлю еще пару цитат оттуда, что бы понимать контекст:
— Ну пусть он сочинит что-нибудь для детей, что-нибудь там про кошечку,
например, — предложил я, выбирая тему полегче.
Красотухин нажал на АТИЛЛе кнопку с надписью «Внимание». Вспыхнул зеленый
глазок, агрегат глухо заурчал. Тогда Красотухин нажал клавишу с надписью
«стихи д/детей». Прибор заурчал громче. Из него выдвинулся черный рупор.
— АТИЛЛушка, творческое задание прими. Про кота что-нибудь сочини, — просительно произнес Писатель-Ихтиолог в рупор.

— Сказка несколько примитивна, — сказал я. — И потом опять тут всякие рыбы.
— Да, мой АТИЛЛА любит упоминать рыб, — огорченно признался Красотухин. — Боюсь, что я несколько перегрузил его ихтиологическими знаниями.

Уже тогда, в 1964 году (!), была поднята проблема выбора датасета для обучения нейросети :)

P.S. Шефнер — один из любимейших авторов моего детства.

Компьютерная программа делает не то, что вы хотели, чтоб она сделала, а то, что вы приказали ей сделать. Во всяком случае так было раньше.

Тут стало сложнее. Помимо того, что она "делает то, что ей сказали", сказать ей надо очень специфические вещи, которые та лучше поймёт, а документации на эти специфические вещи никто не написал, потому что это черный ящик

Теперь вы лучше понимаете ощущения бухгалтера Гали, когда принтер не печатает.

Проблема всех этих нейросетей, что обучены они на очень корявых данных. Можно ли на хотя бы 80% быть уверенным, что описания к картинкам писали без оценочных суждений и личных предпочтений? Вот скармливаем ей "spirits of java". В целом ожидаемо, что должно быть нечто абстрактное, раз какие-то духи. И с дУхами она справится так как я уверен артов такие вагон и маленькая тележка и нейросеть 100% выделила какие-то особенности для них. Чтобы выдать нечто близкое к java, машина должна понимать еще контекст. Просто картиночек с лого java недостаточно. Еще лучше если анализировать тексты, форумы, статьи java-разработчиков а уже на основании них пробовать построить какой-то набор машинных стереотипов. Вот даже человека попросить нарисовать, пусть даже разработчика, "spirits of java", но при этом не прибегаю к изображению компьютера, кода или лого-чашки. Сможет ли он так сходу выдать что-то? Сможет ли другой человек не знаю по какому запросу нарисовали этот рисунок сказать "ага ну это какие-то духи, java наверное?". Мне кажется чтобы выдавать такие арты нейросетям еще переть долго и долго, потому что тут требуются высшие когнитивные функции. Да и в целом лично меня не впечатляют эти достижения. Просто взять за референс 10 картинок и объединить детали из них в одну много ума не надо. И творчества как такового тут нет. Другой вопрос что множественная генерация нейросетью позволяет автоматизировать этот процесс и выдать попросту случайно какой-нибудь интересный вариант на основе которого, как рефа, можно нарисовать реально крутой, новый, "неповторимый" арт.

Я просто оставлю здесь концепт-арт мечника, который я сгенерил в Stable Diffusion по мечу (который ранее тоже сгенерил той же сетью)

Мечник

Меч

Возле правой ноги видны чёрточки, сильно похожие на подпись художника. Палево)

Вы отказываете нейросети в праве подписи её работ? :)

мы переживаем что придет автор рисунка, на котором учили сетку, и спросит "а почему к моему мечнику пририсовали такой меч и не указывают - у кого брали мечника?" :)

Это очень мило. И очень глупо.

Но такие нападки — точно будут! :) Некоторые все еще думают, что джина можно затолкать обратно в бутылку или просто не понимают технических деталей

Хорошо, если набор для обучения был взят из паблик домайн, но если кто, не очень сознательный, скачает форк и натаскает на том, что нравится, а не что свободно?

Надо сказать, что у SD на некоторых изображениях очень отчётливо проявляются следы вотермарков, т.е. часть сета составляли превью с сайтов клипарта.

Это у официальной версии или кто-то форкнул и сам натаскивал?

Народ уже исследовал. И оно вполне известно изначально были - создатели как бы и не скрывали, откуда картинки брали.

А так, там в статье

Nearly half of the images, about 47%, were sourced from only 100 domains, with the largest number of images coming from Pinterest.

Я одно время искал источники вдохновения сети в плане клипарта, ибо там есть куда больше возможностей радикально по-разному нарисовать одно и то же, в отличие от реалистичного представления. Прогонял каждый вывод сетки через google images, пока ничего криминального не нашёл.

Вот вам нейросетевые векторные лисички

Latent space у нас предполагается сильно меньше набора данных, потому шанс, что где-то в структуре весов сохранится целиком авторское изображение, крайне мал. Обучить заново на сугубо несвободном можно, но в ближайшее время не в домашних условиях. Если же несвободного на порядок меньше, чем свободного, то почти наверняка можно не переживать за лицензионную чистоту вывода.

Из возможных придирок я допускаю сохранение "авторского стиля" как более локального явления (форма предметов, цвета, определённая техника мазков кистью). Но я не уверен, что авторские права на стиль можно защитить, это ничем не будет отличаться от запрета живым художникам рисовать в определённых стилях.

Поэтому, когда очередной знаток мне всерьёз говорит "это коллаж" или "у вас подпись автора на картинке", это уже даже не смешно. Рядом с сетью лежит подробное описание модели, бери и читай, не придётся нести пургу.

Рядом с сетью лежит подробное описание модели, бери и читай, не придётся нести пургу.
Такие оппоненты или сами художники, то есть чистые гуманитарии, или просто люди далёкие от понимания этой технологии и, непонятно зачем, влезающие в непонятный для них спор.

увы, деньги - они такие.

Причем самому автору может будет и все равно, но если у него эксклюзивные права переданы издатеюлю или еще куда-то - то оттуда точно придут приматываться: "у вас неправомерное использование, с вас штраф" и тд.

Семь красных перпендикулярных линий уже кто-нибудь пробовал у нейросети просить нарисовать?

Фраза «Экранизация книги» приобретает новый смысл…

Ничего, скоро можно будет грабить корованы

Не знаю, много ли обложек альбомов было в обучающей выборке. Но нейросеть не только угадала тематику, но и сгенерировала довольно атмосферные картинки!

Strangers in the night

Fly me to the moon

Из статьи следует, что если бы не вонь всяких мудаков, которые запрещают незапрещаемое - мы бы встретились с этими прекрасными вещами гораздо, гораздо раньше. Что такое - два года? Может и не много, но в жизни таких двух лет всего, в среднем, 35, отнюдь не равноценных по качеству. Это ли не современный луддизм.

Но есть и классное: мир до того дошел, что oracle дает бесплатные машины, пусть и на непрозрачных условиях, гугл позволяет бесплатно запускать всякое барахло на недешевых видеокартах, например этот же stable diffusion, не говорю уже про все множащиеся бесплатные сервисы, один лучше другого. Это ли не современный коммунизм.

НЛО прилетело и опубликовало эту надпись здесь

Справедливости ради, бесплатно гугл в основном подсовывает теслу к80, которая за 24гб стоит всего 79-100$ на ebay, а гугл её ищё и уполовинивает до 12гб.

ИМХО, выгоднее за 150$ взять себе чуть более новую m40 и использовать хоть и медлено (ибо Maxwell), но надежно с 24гб без всяких лимитов пользоваться.

мне кажется, или вы сравниваете "бесплатно" с "за деньги" ?

В то время как первый вариант доступен "любому школьнику с головой", подскажите - какое расчетное количество сэкономленных школьных обедов для покупки второго варианта ? И куда его установить в смартфон после покупки?

а гугл её ищё и уполовинивает до 12гб.
Это не Гугл, это сама K80 на самом деле содержит не 24Гб VRAM, а 2x12 Гб, т.е. это два GPU в одном корпусе, каждый из которых использует только 12 Гб памяти. Все 24 можно использовать лишь при распараллеливании батчей.
ИМХО, выгоднее за 150$ взять себе чуть более новую m40 и использовать хоть и медлено (ибо Maxwell), но надежно с 24гб без всяких лимитов пользоваться.
Примерно в 11 раз медленнее RTX3060 при тесте на генерации картинок VQGAN+CLIP.
К тому же M40 вы напрямую в комп не воткнёте — это же серверная карта, там даже системы охлаждения нет в комплекте. Т.е. придётся ещё что-то колхозить с охлаждением и питанием, плюс не факт что она встанет в ваш корпус (у неё же по умолчанию нет видеовыходов, а значит, вам потребуется ставить её второй картой, и тут далеко не у всякой матплаты нужная компоновка, чтоб две видюхи влезли).
Наконец, Tesla ещё надо заставить работать, там гарантированно будут сложности с драйверами и настройкой. В общем, это скорее DIY-полуфабрикат, чем готовый продукт.
Ну и плюс покупка б/у карточки — всегда лотерея, особенно при отсутствии гарантии в случае такой покупки.

Нейросеть неплохо понимает стиль JoJo ))

Переписывание истории стало совсем тривиальной задачей с массовой цифровизацией. Даже книги не надо теперь сжигать. Правки в Википедии ничего не стоят.

Вот тут-то блокчейн и может, наконец, пригодится для подтверждения подлинности. По крайней до того момента, пока квантовые вычисления не придут на помощь следующему режиму, решившему подкорректировать прошлое.

Чтобы сделать правку в Википедии, обычно приходится найти книгу, прочитать её, передать её сообщение своими словами и сделать ссылку на книгу с указанием страницы. Этого требуют правила Википедии.
Ну, ужас, конечно... Но не ужас-ужас-ужас!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий