averkij Sep 2 2021 at 07:21

Сделай себе книгу для изучения языка с нейросетевыми иллюстрациями

12 min

12K

Natural Language Processing*Learning languagesArtificial IntelligenceMachine learning*Image processing*

Tutorial

+53

Comments 56

Meklon Sep 3 2021 at 07:32

Пиксель-арт прекрасен

averkij Sep 3 2021 at 08:12

Не могу наиграться. Вот «the door into summer»:

Meklon Sep 3 2021 at 09:58

Кажется, я знаю, как буду иллюстрировать корпоративную Wiki

averkij Sep 3 2021 at 10:09

Если будете сегодня это делать, то вот:

Meklon Sep 3 2021 at 10:15

averkij Sep 3 2021 at 10:22

Colab не всегда дает годную видеокарту, надо перезапустить сеанс и посмотреть какая видеокарта подключилась в ячейке **!nvidia-smi**. Надо, чтобы была хотя бы T4, возможно и P4 хватит, но точно не K80.

Meklon Sep 3 2021 at 10:33

Опять та же фигня. Не вижу где посмотреть видеокарту

averkij Sep 3 2021 at 10:42

Надо запустить верхнюю ячейку (на картинке — Tesla T4).

Гугл в зависимости от загруженности может разные карты подсовывать. Можно еще оформить Colab Pro подписку, тогда будет карты помощнее давать.

Meklon Sep 3 2021 at 10:45

Мы точно про один и тот же блокнот?

https://colab.research.google.com/drive/1MDin_3_XE21f7XcnFw_alc1YZIuKkD15#scrollTo=qQOvOhnKQ-Tu

averkij Sep 3 2021 at 11:12

Я про свой:

https://colab.research.google.com/drive/1B6FLBZmHCSZmCI-kmQRzPqy0PeicO0PG

Добавьте в вашем блокноте ячейку и выполните в ней !nvidia-smi, покажет текущую видеокарту.

Meklon Sep 3 2021 at 12:18

Отдает всегда Tesla K80

averkij Sep 3 2021 at 12:28

Вы только выбирайте не «перезапустить среду выполнения», а в управлении сеансами ее тушите. Потом заново подключайтесь.

Если все время k80 дает, то надо подождать, значит нет свободных. Вообще должен в итоге хотя бы P4 выдать.
Либо же раскошелиться на подписку.

Meklon Sep 3 2021 at 13:29

Видимо нет. Я раз 20 пересоздавал машину.

Meklon Sep 3 2021 at 13:38

Сейчас доступ к Colab Pro есть только в Бразилии, Великобритании, Германии, Индии, Канаде, США, Таиланде, Франции и Японии.

А локально не вариант то же самое запустить? У меня RTX 2060 Super

Alexey2005 Sep 3 2021 at 15:21

Да, это возможно, карточка тянет и 6Гб VRAM достаточно для запуска (при условии, что на вашем PC есть минимум 8Гб оперативки и минимум 11 свободных Гб на диске).
Проблема в том, что синтез пиксель арта здесь основан на diffvg, который придётся собирать из исходников на локальной машине, что не вполне тривиально.
Если у вас что-то вроде Debian или Ubuntu с установленными драйверами NVIDIA, CUDA Toolkit 10.2, и Python 3.7+, то могу написать небольшой гайд, как запустить эту нейронку локально. А вот под винду так даже и не соображу, что и как настраивать.

averkij Sep 3 2021 at 15:31

Colab Pro в России тоже можно, можете указать Америку и zip код отсюда

stackoverflow.com/questions/60240863/i-am-from-pakistan-can-i-buy-google-colab-pro-for-experiments

Meklon Sep 3 2021 at 15:22

Так.
Oops: runtime error: CUDA out of memory. Tried to allocate 48.00 MiB (GPU 0; 7.43 GiB total capacity; 5.83 GiB already allocated; 32.81 MiB free; 5.95 GiB reserved in total by PyTorch) Try reducing --num-cuts to save memory

Сколько ему надо ресурсов? Никак зарезать нельзя?

Alexey2005 Sep 3 2021 at 15:36

От 4Гб и до бесконечности — зависит от разрешения, выставленного качества, набора используемых моделей и аугментаций.
В Colab'е очень часто выделяют меньше VRAM, чем есть на GPU. Издержки облака…
Можете попробовать в ячейке "III. Generate images" нажать на «Show code» и там, где задаются параметры, скажем после строчки

clipit.add_settings(use_pixeldraw=use_pixeldraw)

добавить строку:

clipit.add_settings(num_cuts=9)

Это очень сильно уменьшит потребление памяти.

Meklon Sep 3 2021 at 15:59

Отлично, спасибо. Жаль опять Tesla K80 теперь только выпадает. На ней этот код вообще почему-то не взлетает. Даже медленно.

averkij Sep 3 2021 at 16:26

Да, в неё модель не поместится

Alexey2005 Sep 3 2021 at 18:50

Там проблема не в Tesla K80, а в том, что гугловцы положили в этот контейнер кривую сборку pytorch. Но можно сделать финт ушами и, если не получается выкрутить ничего кроме K80, заменить diffvg на vqgan — тогда будет работать даже в таких условиях, хотя такого замечательного пиксель арта и не выйдет (но поиграться можно, а результат всё же будет довольно неплох).
Для этого можно, к примеру, воспользоваться этим Colab'ом. Там после установки всего нужного и перезапуска runtime'а:
1. Устанавливаем scale в 1.
2. Снимаем галочку use_pixeldraw (теперь у нас вместо diffvg будет vqgan).
3. Показать код (Show code) в этой ячейке и там:

clipit.add_settings(prompts=prompts, aspect=aspect)

заменить на

clipit.add_settings(prompts=prompts)

(иначе модель не влезет в память). Кроме того, после этой строчки добавить:

clipit.add_settings(size=(256,256))
clipit.add_settings(num_cuts=9)

Тем самым мы запрашиваем генерацию квадратного изображения 256x256 пикселей (размеры должны быть кратны 16, чтобы сеть переварила).
Всё, можно запускать, не забывая указывать в запросе тип рендеринга (скажем, #Unreal Engine или #pixelart):

Crystal cave #Unreal engine

Crystal cave #pixelart

Работать будет довольно медленно, хотя можно значительно ускорить ценой снижения вменяемости изображения, изменив в строке

clipit.add_settings(quality="better", scale=scale)

«better» на «draft».

Meklon Sep 3 2021 at 19:07

Спасибо. Я уже думаю, что проще на своей RTX 2060S завести.

Meklon Sep 3 2021 at 19:09

А из PyPi не получится более корректную версию PyTorch вытащить в процессе сетапа?

Alexey2005 Sep 3 2021 at 20:26

Вряд ли, скорее всего кастомный билд собирать придётся. Но вы можете попробовать перебрать официальные билды — вдруг на чём-то запустится? (Хотя шансы невелики).

averkij Sep 3 2021 at 15:41

Можно --num-cuts параметр меньше указать. В блокноте раскройте ячейку с настройками и добавьте строку

clipit.add_settings(num_cuts=96)

Alexey2005 Sep 3 2021 at 15:43

96 в 7Гб VRAM вряд ли влезет. Я бы начинал с совсем низких значений, а поднять всегда можно успеть.

averkij Sep 3 2021 at 15:45

Согласен, тут надо поиграться.

Meklon Sep 3 2021 at 10:41

Добавил в код:

import tensorflow as tf
device_name = tf.test.gpu_device_name()
print(device_name)

Выдал:

/device:GPU:0

averkij Sep 3 2021 at 12:30

EugeneH Sep 3 2021 at 08:10

Большое спасибо за статью! И за ссылки на блокноты отдельно. Вроде бы только недавно синтез изображения по текстовой подсказке был чем-то недосягаемым. Теперь же все делается в 2 клика. Страшно представить, к чему это придет через 10 лет. Синтез фильма по краткому описанию сюжета?

UFO landed and left these words here

averkij Sep 3 2021 at 10:28

В ожидании новой книжки можно немного порисовать

Alexey2005 Sep 3 2021 at 12:44

или так:

averkij Sep 3 2021 at 10:29

Рад, что понравилось! Можете тоже поиграть, получите массу удовольствия.

LevOrdabesov Sep 3 2021 at 10:22

Обалденно!

averkij Sep 3 2021 at 16:22

Ага, вот остров в космосе и девушка с татуировкой дракона

Alexey2005 Sep 3 2021 at 13:05

Тот же самый CLIP, соединённый с vqgan, позволяет генерировать довольно качественные полноразмерные обоины абстрактного содержания. Правда, степень понимания языка всё ещё оставляет желать лучшего, и как ни формулируй запрос, на выходе никогда не получается в точности то, что хочется.
Вот например

Lyra-shaped crystal cave #Unreal Engine

Модель «не понимает», что в пещере деревья обычно не растут, да и пожелание сделать планировку пещеры в форме указанного музыкального инструмента реализовать не удалось даже после нескольких модификаций текста запроса.

averkij Sep 3 2021 at 13:26

Для улучшения качества можно добавлять различного рода подсказки, — fine details, high resolution, professional photo of, ultra settings, ray tracing.

averkij Sep 3 2021 at 15:43

averkij Sep 3 2021 at 15:45

А какие изображения лучше получаются, на какую тему?

Alexey2005 Sep 3 2021 at 15:54

Лучше всего абстрактные вещи. Пещеры, горы, леса, парусник в море и т.д.
В общем, разного рода фоновые вещи. Людей, особенно крупным планом, оно обрабатывает так себе (в pixelart-варианте это не слишком видно, но если делать FullHD, то ужас-ужас).
И совсем паршиво обрабатываются мифические животные, например гарпии, грифоны, драконы или (особенно) русалки. Сгенерировать нормальный русалочий хвост в FullHD так и не удалось. Похоже, нужно тюнить модель или использовать её как feature extractor, набросив сверху два дополнительных слоя, чтобы генерировать мифических животных.

averkij Sep 3 2021 at 16:31

А вы какие модели используте, которые в сети гуляют (натренированные на Imagenet'ах, WikiArt, Flickr и т.д.)? Я вот на этих пробовал:

Но вот, действительно, точного выполнения от них не получается. Лица в принципе генерируются, но страшненькие. Вот картины довольно неплохо заходят.

Alexey2005 Sep 3 2021 at 16:53

Да, эти плюс vqgan_gumbel_f8, которая даёт достаточно интересные результаты.

averkij Sep 3 2021 at 16:58

Вот в этом канале девушка очень крутые картинки генерирует

https://twitter.com/RiversHaveWings

vektory79 Sep 4 2021 at 16:50

Не силён в ноутбуках... Что-то у меня упорно не находит модуль pixeldrawer :(

averkij Sep 4 2021 at 17:17

Какую ошибку выводит?

Alexey2005 Sep 4 2021 at 20:36

Забавно выходит, если скармливать сетке разные абстрактные вещи. Например,

Linux vs FreeBSD

averkij Sep 5 2021 at 10:09

В тему, даже пингвин боком развернут.

averkij Sep 5 2021 at 10:17

Двери в осень, зиму, весну и лето

Alexey2005 Sep 5 2021 at 11:49

В моём случае дверь в осень получается всегда без людей и результат напоминает

скрин из какой-то компьютерной игрушки времён DOS

averkij Sep 5 2021 at 14:11

Круто, а поделитесь кодом для такой генерации?

Alexey2005 Sep 5 2021 at 15:25

Вверху уже поделился инструкцией — нужно в этих Colab'ах отключить diffvg, вместо этого используя vqgan.
Ну, и если запускать локально, то там намного больше возможностей и параметров для настройки. Я использовал такой вариант запуска:

python generate.py -p "the door into autumn #pixelart" -i 600 -qua "normal" --num_cuts 15 --output "result/output" -s 416 224 -lr 0.1 --save_every 10 --pixelize_every 50 --out_unpix "unpix/output"

averkij Sep 10 2021 at 06:05

Нашел еще одну подборку Colab'ов:

github.com/tg-bomze/collection-of-notebooks

averkij Sep 21 2021 at 10:09

Высоцкий в Москве

Вин Дизель в космосе

Джим Керри

Alexey2005 Sep 29 2021 at 14:32

На Хабре опубликовали статью со ссылкой на апскейл-нейронку, которая на удивление неплохо обрабатывает пиксельарт.
Так что можно взять «выхлоп» CLIP, уменьшить так, чтобы каждый пиксельный кадратик изображения занимал ровно 1 реальный пиксель, после чего увеличить с помощью этой нейронки.

Результаты

averkij Sep 30 2021 at 07:14

Спасибо, классно выглядит. Надо поиграться.