KD637 Oct 7 2021 at 22:33

Как написать генератор изображений, который вас понимает

13 min

35K

Skillfactory corporate blogWebsite development*Python*Programming*Machine learning*

Tutorial

Translation

+12

Comments 22

Areso Oct 7 2021 at 22:50

Предположим, я гейм-девелопер. Я плохо умею в код, но совсем не умею в картинки.

Захожу на такой сайт (или любой другой), вбиваю ключевые слова, с какой-то попытки получаю результат, достаточный, чтобы вставить в игру.

Вопрос: кто является владельцем прав на картинку? ИИ? Но это программа. Авторы модели или моделей, потому что тут их две? Или владелец сервера-сервиса? Или я, потому что я написал описание и долго вылавливал среди случайных артефактов тот самый. Знаете, как коллекционирование минералов - можно собирать десятки лет камни, но лишь энный окажется божественно красив. Слепая воля случая, которая подарит конкретному булыжнику красивый узор.

RigelNM Oct 7 2021 at 22:56

"Знаете, как коллекционирование минералов - можно собирать десятки лет камни, но лишь энный окажется божественно красив. Слепая воля случая, которая подарик конкретному булыжнику красивый узор."

Точно так-же как с произведением искусства, музыкант или художник делает десятки и даже сотни произведений и только одно из них ему не стыдно показать и возможно даже именно оно станет общепризнанным шедевром.

Часто вижу такой аргумент насчет "ненастоящести" творения ИИ (дескать человек выбирает что-то хорошее. из рандома, который создал ИИ). Ну дак и среди людей-творцов мы так-же сами выбираем то что нам нравится из точно такого же хаоса.

Ну а насчет авторских прав: думаю если разработчик ИИ пойдет в суд с жалобой, то суд встанет на его сторону. Если не в части использованию чужих изображений, то в использовании чужой программы в корыстных целях. Ведь вы не станете использовать speedtree, например, без ведома разработчика, думаю и здесь так же.

Areso Oct 7 2021 at 23:06

А где есть описания лицензионного соглашения на эту программу или на модели? Они как-то вообще лицензируются?

Ну вот я каждый день использую в корыстных целях кучу софта. Но это законно. Где это незаконно - либо мне это покупают (я наемный рабочий на дневной работе), либо я это не использую, как правило.

Вопрос не досужий - генерация ассетов вполне себе рабочий вариант, но надо учитывать подводные камни (в т.ч. лицензию) и стоимость (условно-бесплатный хостинг, свое оборудование, аренда игровых машин в облаке, аренда серверов с ГПУ - вариантов много).

Areso Oct 7 2021 at 23:11

Конкретно SpeedTree включен как плагин в состав Unity, а Unity (в определенных пределах) можно использовать бесплатно, в т.ч. в коммерческих целях.

Вот статья https://habr.com/ru/post/538874/

Значит, я могу использовать SpeedTree в составе этой поставки. По крайней мере, я делаю такой вывод.

Alexey2005 Oct 8 2021 at 00:14

думаю если разработчик ИИ пойдет в суд с жалобой, то суд встанет на его сторону.

Сильно в том сомневаюсь. Во-первых, код для работы с моделью (CLIP) опубликован под лицензией MIT. А вот является ли объектом авторского права сама модель, полученная в результате работы данного кода (полностью автоматического! Человек после запуска ни во что не вмешивался!) — до сих пор идут споры.
И даже если является, то разработчик вряд ли наберётся наглости, чтобы пойти в суд и потребовать роялти со всех пользователей, потому что тогда ему сразу зададут очень неудобный вопрос — «а те 400 миллионов картинок, которые вы собрали со всего Интернета для тренировки сети — у вас на них есть права? Это вообще Fair Use?».
Поэтому шанс, что разработчик CLIP пойдёт с вами судиться, равен нулю. И в любом случае исход тех судов будет очень мутным и неопределённым.

П.С.: Массовое распространение нейронных сетей нанесёт по системе копирайта ещё более мощный удар, чем распространение Интернета. Сами законы об авторском праве абсолютно не рассчитаны на подобное, и их абсурдность и невозможность исполнения кроме как полным запретом на нейронки изрядно подорвёт репутацию авторского права как явления, и без того изрядно подмоченную.

major-general_Kusanagi Oct 8 2021 at 07:50

Фиг с этим копирайтом!
Меня больше заботит, что это способно привести к тому, что книжные полки будут забиты макулатурой сгенерерированнной нейросетями, и теперь ещё и со сгенерированными иллюстрациями. :(
И аналогично может получиться и с играми, и с кино-мультифильмами. :(

inkelyad Oct 8 2021 at 09:24

Меня больше заботит, что это способно привести к тому, что книжные полки будут забиты макулатурой сгенерерированнной нейросетями, и теперь ещё и со сгенерированными иллюстрациями. :(

И это хорошо. Потому что в результате рано или поздно придем к сервису, который будет генерировать книжку, которая интересно конкретно мне.

perfect_genius Oct 29 2021 at 14:29

Вот-вот, т.е. будет удовлетворён каждый из нас.

GospodinKolhoznik Oct 7 2021 at 23:27

Штука сильно впечатляет, но как мне кажется в контексте гейм девелопмента она довольно бесполезна. Рисует уж очень абстрактную мазню. Массовый потребитель такое не купит. Понятно, что найдется любители странного, которым понравится такая графика, но они малочисленны и кассу не сделают.

В качестве бесплатных игр наверное хорошая штука. Например ее можно использовать как прикольный иллюстратор к текстовым квестам, но не более.

Ладно, сам себе в качестве контрпримера приведу игру Hylics, в которой графику делал живой человек, но выглядит она дурнее нейросетевой. И вроде даже игра имеет какой то небольшой успех в узких кругах за свой крезёвый психоделизм. В общем можно попробовать повторить его скромный успех с помощью нейросети, но затея очень уж рисковая.

JustDont Oct 8 2021 at 10:57

Тут даже не в абстракциях дело, а в том, что графика игр всегда состоит из множества кусочков, которые всё-таки надо сделать в одном и том же стиле (иначе это никто не купит). А нейросетка не умеет рисовать в одном стиле, куда минимум функции съехал, то и будет. Даже если это вывод, "уточненный" ключевыми словами описания стиля.

Ну и да, с самим содержимым картинок — огромная проблема, ключевым словам они соответствуют только в случае "глянуть быстро с расстояния и не вглядываться". Если начать вглядываться, то 99.99% вывода нейросетки сразу же превращаются в абстрактную мазню.

Я бы сказал, что для геймдева будет куда перспективнее сделать такую штуку, которая стиль одного изображения будет сводить к стилю другого изображения (базиса, нарисованного человеком) с минимумом изменений.

Alexey2005 Oct 8 2021 at 12:09

Нейросетки отлично способны переносить стиль. Причём для этого даже не надо чего-то навороченного вроде CLIP, справляется и простенькая CycleGAN, способная работать в реальном времени:

стилизация потока с вебкамеры

Alexey2005 Oct 8 2021 at 13:48

Если начать вглядываться, то 99.99% вывода нейросетки сразу же превращаются в абстрактную мазню.

Нейросетью, как и любым другим инструментом, тоже нужно уметь пользоваться. Если это просто «скачал код, даже не понимая, что там под капотом, и сгенерировал Hello World в пять строчек кода», то и получится рисунок уровня Hello World.
А вот например подборка персонажей поттерианы, сгенерированная в Artbreeder, просто смешиванием рефов и переносом стилей:

согласитесь, уже не совсем мазня

Вернон Дурсль:

Петуния Дурсль:

Дадли Дурсль:

Люциус Малфой:

Драко Малфой:

Сириус Блэк:

Беллатриса Лестрейндж:

JustDont Oct 8 2021 at 13:55

Ну так и да, весь вопрос в том, сколько времени уйдет на настройку и подборы. И не выгоднее ли в итоге таки нанять художника, вместо того, чтоб тратить время программиста.

А вот например подборка персонажей поттерианы, сгенерированная в Artbreeder, просто смешиванием рефов и переносом стилей

Собственно, отчетливо видно, что если эти портреты разложить рядом, то они будут выглядеть крайне разнородно ("нарисовано разными людьми разными приемами с разным уровнем детализации и проработки").

inkelyad Oct 8 2021 at 14:02

И не выгоднее ли в итоге таки нанять художника, вместо того, чтоб тратить время программиста.

А так же не выгодней ли нанять художника, который Artbreeder-ом пользоваться умеет и поэтому будет выдавать результат раз в n быстрее того, кто все рисует ручками.

Alexey2005 Oct 8 2021 at 14:08

Прям так и вижу объявление:
«Требуется художник-фуллстек. Владение Artbreeder, Topaz Gigapixel, StyleGAN2+ADA, глубокие знания VQGAN+CLIP, уверенное владение Google Colab.»

inkelyad Oct 8 2021 at 14:10

Именно так. И рядом — еще писатель с навыком владения всеми этими GPT генераторами текстов

major-general_Kusanagi Oct 8 2021 at 14:12

рядом — еще писатель с навыком владения всеми этими GPT генераторами текстов

… и автор для Хабры, использующий неросети для генерации статей. :)

GospodinKolhoznik Oct 8 2021 at 14:26

Да, во всем согласен. Я сам давно ещё об этом думал, и даже пытался делать кое что.

Моя идея была использовать нейросеть как пост обработку срендеренного 3д изображения. При этом за основу 3д изображения можно брать модели достаточно низкого качества, а что мол нейросеть сделает из говна конфетку. В принципе да, наверное хорошо обученная нейросеть может даже из знаменитой 3д модели гнома сделать интересную картинку.

Ну я пытался, пытался, потратил некоторое время. В 3д моделирование я не умею, я делал сцены в воксельных редакторах (этому любой ребенок может научиться за 2 часа) и на эти сценки натравливал нейросеть. Кое что даже было вроде ничего. Но проблемы были. Во первых все таки эффекта "вау как круто" мне не удалось достигнуть. Было интересно, прикольно, забавно, странно, но прям круто не было. Во вторых то, что хорошо работает на одном изображении ужасно работает на другом. Ну и всякие уродливые артефакты то и дело лезли. Добиться какого то прямо универсального стиля, который бы одинаково хорошо работал на всех изображениях мне не удалось. Либо это был слишком психоделический стиль, либо совсем легкая обработка, которую можно и в фотошопе или гимпе получить ихними фильтрами.

GospodinKolhoznik Oct 8 2021 at 14:39

Например вот, что получалось.

Вот кораблик, который я сделал в воксельном редакторе за пару часов.

А вот он же после нейро-обработки под византийскую мозаику

А вот знаменитая Рэчел под мозаику. Довольно хорошо, принципиально разные типы исходных картинок, и близкий итоговый стиль.

Ну вроде ничего так, но чтобы прям вау-обалдеть, такого нет.

А инвестировать кучу собственного времени в написание кода для игры с сомнительной графикой, мне не хочется. Поэтому я предпочел старую, добрую, рисованную живым человеком графику.

Alexey2005 Oct 8 2021 at 15:39

Так а цель-то ваша в чём заключалась? Что именно вы хотели получить? Если просто сделать кораблик менее пластиковым с помощью нейронки, то

это возможно

Если же сгенерировать «настоящий» кораблик на основе вашего квадратного, то

уже гораздо сложнее

в том смысле, что, как вы видите, на коленке получается довольно кривой результат, и уже надо тюнить сетку.
Также не стоит забывать, что эти технологии только в начале пути, и ещё пять лет назад даже это казалось чем-то запредельным.

GospodinKolhoznik Oct 8 2021 at 16:05

Цель была получить инструмент для создания красивой пререндеренной графики на не очень красивых 3д моделях. А именно: во первых сделать красивее*, чем в оригинале, во вторых чтобы был универсальный способ из самых разных исходных изображений получать стилистически одинаковый результат и в третьих, чтобы не было бросающихся в глаза артефактов.

*красивее по моему личному ощущению.

Я тогда потратил около месяца на эти попытки, но добиться результата по всем трем пунктам мне не удалось. Гораздо более хорошего результата мне удалось добится с помощью шейдеров в Блендере. Да, я вовсе не специалист по нейросетям, но в блендере я тоже не специалист.

inkelyad Oct 8 2021 at 09:23

Вопрос: кто является владельцем прав на картинку?

Вроде бы правами на результаты работы инструмента практически всегда является тот, кто инструмент применил, а не тот, кто инструмент изготовил.