Firemoon Jan 11 2023 at 17:11

Как быстро растут сети: прогресс Midjourney спустя полгода

11 min

59K

Selectel corporate blogMachine learning*Popular scienceArtificial IntelligenceIT-companies

Review

+144

Comments 68

zartdinov Jan 11 2023 at 17:54

Не знаю насчет Midjourney, но есть обратные генераторы, когда по картинке получаешь запрос для таких моделей. Если есть примеры (неон с белым фоном и тд.), то можно глянуть какой текст нужно ему отправлять. Мне кажется, что так нужно работать с этими моделями чтобы не гадать и не перебирать.

Sabin Jan 11 2023 at 20:26

Вы имеете ввиду interrogator, вроде встроенного clip или, например, wd14tagger или что-то принципиально другое?

zartdinov Jan 12 2023 at 05:17

Да, скорей всего я видел clip-interrogator на huggingface, про который написали ниже, вряд ли что-то другое.

cyber_roach Jan 11 2023 at 23:23

Можете скинуть пример такого генератора?
Чтобы именно картинку текстом описывал.
Просто у меня чувство, что вы путаете с чтением exif, практически все сети записывают туда запрос, для дальнейшей работы, и да, если картинка была сгенерирована нейросетью, то считав ее метаданные, можно получить начальный текстовый запрос, который был использован для ее генерации

mrise Jan 12 2023 at 00:05

Нет, не путает. Такая штука встроена в некоторые SD-дистрибутивы, например, automatic1111, или доступна онлайн.
Пример CLIP:
https://huggingface.co/spaces/fffiloni/CLIP-Interrogator-2

Пример Deep Danbooru (если я правильно понимаю, аналог wd14tagger):
http://dev.kanotype.net:8003/deepdanbooru/

+10

perfect_genius Jan 12 2023 at 16:13

Что-то нереальное. deepdanbooru распознало практически всё на картинке, даже сложные элементы О_о

AlexG37G Jan 12 2023 at 00:08

Такое?

https://huggingface.co/spaces/pharma/CLIP-Interrogator

ramzes2 Jan 11 2023 at 18:55

А семь красных линий может?

+10

svp7093 Jan 11 2023 at 19:26

Можно и зайца научить курить (с)

+10

Persik1 Jan 12 2023 at 14:32

Сколько времени потратили на обучение?)))

un7ikc Jan 12 2023 at 15:31

Зайца?

+15

Persik1 Jan 12 2023 at 18:01

А кого-то другого ещё курить учили? 😂😂

UFO just landed and posted this here

EvilFox Jan 11 2023 at 20:12

Поэтому генерация какой-то техники - это не для нейросетей

Stable diffusion справляется лучше.

https://civitai.com/models/1798/carhelper-for-sd-2x

Но конечно зависит от нужной вам технике.

UFO just landed and posted this here

konst90 Jan 12 2023 at 11:19

Особенно тяжело нейросетям даются провода. Видел сгенерированную картинку поезда: всё вроде бы нормально, но пантограф и контактная сеть - тихий ужас.

tuupic Jan 12 2023 at 11:55

По моему опыту, хуже всего нейросетям даются велосипедисты на велосипедах

Firemoon Jan 12 2023 at 12:17

Штош.

tuupic Jan 12 2023 at 12:28

Прогресс налицо. Полгода назад рисовало только переплетение колёс и линий. Впрочем, и тут, только на 1й картинке что-то, в первом приближении, похожее

Firemoon Jan 11 2023 at 23:44

Ну, эти семь красных линий, возможно, похожи на то, что хотел заказчик. А может и нет ¯\_(ツ)_/¯

amarkevich Jan 12 2023 at 02:41

оригинальная задача несколько сложнее:Нам нужно нарисовать семь прямых красных линий. Все они должны быть строго перпендикулярны, и, кроме того, некоторые нужно нарисовать зеленым цветом, а некоторые – прозрачным. Как вы считаете, это реально?

cyber_roach Jan 12 2023 at 10:47

И одну в форме котёнка!

NewMax Jan 12 2023 at 11:40

вышло как-то так

un7ikc Jan 12 2023 at 15:40

вот что получилось:

Hidden text

7 red perpendicular lines, 2 of which are green and 2 are transparent

mrise Jan 11 2023 at 21:19

Не смотря на безумную красивость, Midjourney, имхо, уже начал уступать Stable Diffusion в плане точности и возможностей для генерации.

Потому что пока MJ рос "вглубь", SD вырос "вширь".
Десятки моделей (сотни - если считать миксы), возможность добавлять собственные объекты, использовать эстетические градиенты, делать свои миксы или тонкую настройку под целевые изображения...

И это не говоря о гораздо более удобном туллинге (маски, в том числе 3д, для img2img); возможности генерировать сотни изображений в поиске того самого, правильного ракурса; возможности манипулировать запросом (включи вот этот термин с такого по такой шаг, с такой силой).

(Правда, стоит заметить слона в комнате, и признать, что значительное число моделей натренировано рисовать исключительно полуодетых анимешных девушек.)

+13

Firemoon Jan 11 2023 at 21:59

Возможность дообучения и переобучения — это неоспоримый плюс SD. Правда, этот самый слон посреди комнаты...

Я слышал про SD в ключе именно отсутствия цензуры, но после вашего замечания (а так же замечаний комментаторов выше в этой статье и пара дискуссий в комментариях к статьям моих коллег) кажется, что разобрать SD повнимательнее — это хорошая идея.

mrise Jan 12 2023 at 00:33

Разобрать SD - это хорошая идея, если вам нужно сгенерировать что-то конкретное и сложное, с несколькими субъектами.
В таких случаях txt2img это только начало процесса. Потому что нейросеть не различает право/лево, не умеет считать (пальцы!), и не обладает пространственным мышлением.

Поэтому, если запросить рыжего кота в лягушачьей шапке на плече у пришельца в элипсойдном футуристическом кресле, ничего не получится. Кот будет, стул будет, возможно, если повезёт, где-то рядом будет пришелец.
Поэтому вместо того, чтобы делать картинку целиком, нужно разбить её на части, и добавлять элементы в формате коллажа.
Сделать кота в лягушачьей шапке. Кота на плече. Пришельца в футуристическом кресле. Затем применить навыки гимпа/фотошопа/пейнта, чтобы совместить это всё в одну картинку, и готовить на небольшом уровне шума до душевного спокойствия.

Нейросеть можно представить себе как очень пьяного художника. Рука помнит, как писать, но нужен постоянный контроль со стороны, чтобы получить то, что нужно. И возможности контроля в SD гораздо выше и гранулярнее.

Hu3yP7 Jan 12 2023 at 10:53

Правда, стоит заметить слона в комнате, и признать, что значительное число моделей натренировано рисовать исключительно полуодетых анимешных девушек.

Спрос рождает предложение

inkelyad Jan 12 2023 at 16:09

Правда, стоит заметить слона в комнате, и признать, что значительное число моделей натренировано рисовать исключительно полуодетых анимешных девушек.

(разглядывая most downloaded на сайте, где модели публикуют)
Ну про анимешных - это не совсем верно. Хотя результат ожидаем, да.

FreeNickname Jan 12 2023 at 16:17

А что за сайт?

inkelyad Jan 12 2023 at 16:19

civitai.com
Весьма NSFW по очевидным причинам.

EDIT: прочитал всю ветку и понял, как это выглядит :-) поэтому уточню - там чуть меньше приблизительно половины - про героические портреты разных персонажей в разных стилях. Вполне SFW - как раз на обложку книги. Но так получается, что если модель в принципе хорошо людей рисует, то персонажей различной степени (не) одетости оно тоже хорошо рисует.

mrise Jan 12 2023 at 16:41

Надо заметить, что civitai появился после того, как много моделей подобной направленности турнули с huggingface. Так что выборка не полностью репрезентативная.

С другой стороны, на том же Реддите половина постов - это либо девушки, либо "я научил нейросеть рисовать себя, смотрите!", так что.... да.

morijndael Jan 12 2023 at 23:06

Вот она, сила открытого кода. Пока над MJ работает одна команда (пусть и за деньги), над SD колдуют сотни энтузиастов с горящими глазами, сочетая и складывая наработки друг друга

Из особенно впечатлившего меня — запуск на видеокарточках с 2ГБ VRAM (рекомендуется 8)

Ну и UI от Automatic1111 это прям офигенная штука. Настоящий швейцарский нож. Там, где не может SD, в UI интегрированы другие модели. Апскейл (до 2.0 был особенно полезен), исправление лиц, и ещё много-много опциональных плагинов.

Ogoun Jan 15 2023 at 14:22

Генерю при помощи SD, использую все версии, включая дообученную на датасете midjourney. И, к сожалению, они тоже, начиная с версии 1.5, скатываются в толерастию и цензуру. Причем делают это на уровне датасета, что сильно бьет по качеству. На текущий момент лучшую генерацию, по моему мнению, дают веса SD mdjrny-v4.ckpt. Хотя для outpainting'а, после mdjrny-v4 веса inpainting-1.5 дорисовывают шикарно. Для меня качество дорисовки и inpainting'а самое яркое впечатление от этих сетей.

Надеюсь появится кто нибудь еще, кто сможет обучать не обращая внимания на истеричное общественное мнение.

anzay911 Jan 11 2023 at 23:26

Мне кажется, идеальное применение - обложки к альбомам и саундтрекам для музыкантов.

d2d8 Jan 12 2023 at 11:49

И саундтреки тоже сгенерить.

Lizdroz Jan 12 2023 at 18:04

Лица художников, рисовавших обложки к альбомам для музыкантов, представили?

rjhdby Jan 12 2023 at 18:42

Зачем представлять? Надо сгенерить

mrise Jan 12 2023 at 18:47

Тут и представлять не нужно. Тема является постоянным источником драмы и токсичности для сообществ художников и "ИИ-художников".

На артстейшн, например, уже был протест по поводу использования ИИ.

Скриншот Artstation от 14 декабря,

Доходит до смешного. Художника забанили на r/Art, потому что модератор посчитал, что она слишком похожа на генерацию ИИ. В ответ на предложение показать PSD-файл в качестве доказательства, модератор посоветовал художнику научиться рисовать в своём, "не похожем на ИИ" стиле. (история, eng)

tatigabru Jan 12 2023 at 04:13

Интересная статья!

-1

Philistine1917 Jan 12 2023 at 07:28

Напомнило

И видимо, такая нейронная сеть не умеет считать. У неё есть понятия "один", "похожи" и "много". Как и у человека которого не учили считать.

XanderBass Jan 12 2023 at 07:31

Так, ну с горячими собаками мы разобрались. А как быть с горячими кисками? :D

+17

Antikiller Jan 12 2023 at 09:02

Я попробовал разные цвета, разное построение предложений, синонимы к слову «background» — все бестолку.

Сначала удивился — вроде бы недавно генерировал себе именно что котов (правда, не неоновых, а психоделических) с разными фонами, и всё работало. Попробовал воспроизвести, и...

Посмотреть генерации

реально в 50% случаев запрос на белый фон игнорируется, а в остальных - смешивается с чёрным тем или иным образом. Но даже на генерации с абсолютно белым фоном само котообразное чёрное.

Я предположил, что это особенность акцента «neon», тянущего за собой по умолчанию «чёрный фон». Поигрался:

Найти белую кошку в светлой комнате

Определённо, есть завязка на «neon», не находите?

Antikiller Jan 12 2023 at 09:07

Но можно и белый фон, в итоге:

rainbow neon cat, white background

Firemoon Jan 12 2023 at 11:42

Мои поздравления!

Хотя все же стоило прислушаться к упрямству MJ: на черном фоне мне субъективно нравится больше.

d2d8 Jan 12 2023 at 11:52

Еще срабатывает "against white background".

Samoisolator Jan 12 2023 at 22:43

Может, на "neon lights"?

KirillBelovTest Jan 12 2023 at 09:49

На счет того, как генерируются руки и конечности. Меня тут заставили нарисовать сначала кошечку - я нарисовал только голову и получилось ровно и узнаваемо. Потом нужно было нарисовать собачку. Я решил ее сделать в профиль в полный рост и голова получилось нормально, а вот ноги очень криво. Очень естественно, что для человека конечности рисовать сложнее. Для нейросети видимо так же

mrise Jan 12 2023 at 10:29

Одна из шуток в сообществе Stable Diffusion зкалючается в том, что у нейросети так плохо получаются руки потому, что они получаются плохо и у человеческих художников.

Поэтому хитрые художники стараются их прятать, в результате чего у нейросети гораздо меньше референсов, и они более плохого качества.

Arxitektor Jan 12 2023 at 09:55

Жаль запуск такой штуки не возможен на домашних мощностях. Нужно что-то на порядки мощнее чем 4090. Жаль не сделать децентрализованное решение на подобие майнинга для генерации картинок. Подключаешься к пулу и получаешь генерации согласно твоему вкладу в мощности.

FirExpl Jan 12 2023 at 10:41

Stable Diffusion спокойно работает на видеокартах от 8ГБ, для макбуков есть ещё и оптимизированные под CoreML версии. Так что если не нужен именно MidJourney, то генерация картинок сейчас очень доступная

gatoazul Jan 12 2023 at 11:10

Отлично работает даже без видеокарты. 5 минут на картинку.

FirExpl Jan 12 2023 at 12:49

MBP M1 Pro. SD сконевертирована в CoreML + Swift фреймворк для SD от Apple. Где-то 30 секунд на картинку 512х512 в 30 шагов.

P.S. если кто-то хочет попробовать SD на маках без лишних заморочек то искать DiffusionBee (больше функционала, SD v1.5) или Mochi Diffusion (UI для оптимизированной под Apple SD)

positroid Jan 12 2023 at 11:19

Генерация - да, но чтобы дообучить модель своим объектом - будь добр иметь хотя бы 16 Гб видеопамяти, а лучше все 24

mousesanya Jan 12 2023 at 13:16

Не обязательно дообучать, можно подключить Hypernetwork. 8ГБ видеопамяти достаточно будет и результат неплохой.

DagothNik Jan 18 2023 at 13:58

От 4Гб видеокарты поддерживаются (для работы SD).

mousesanya Jan 12 2023 at 11:43

У меня SD на моей GTX1070 работает нормально. Хотелось бы побыстрее конечно, но терпимо, результаты можно получить неплохие и быстро. К примеру гриды 4*4 генерятся в среднем 20-30мин (90 сэмплов, 512*512). Даже Hypernetwork обучается. С Dreambooth, да, не хватает VRAM. Но вроде можно задействовать CPU

mrise Jan 12 2023 at 14:46

Прошу прощения за любопытство, но зачем вам 90 сэмплов? Вроде бы на большинстве не-ansestrial сэмплеров разница почти исчезает на 30 шагах, на некоторых моделях - на 15-20.

По поводу Dreembooth - есть (непроверенная, с геморроем) инструкция для 8gb.

mousesanya Jan 12 2023 at 18:03

Ну с моими любимыми сэмплерами разница есть между 30/60/90 (SD 2.1). 30 Мне вообще не нравится, может для каких-то определенных целей и подойдет :)

mrise Jan 12 2023 at 14:32

Над децентрализованным решением для нейросеток уже работают.

Не так давно вышел проект большой текстовой модели https://petals.ml/, который заявляет о скорости генерации в 1 токен/секунду при размере модели 100B.

Можно ли так делать с Midjourney - мы не знаем, его архитектура вроде закрыта. Со Stable diffusion так тоже не получится, по крайней мере по мнению диванных экспертов.

Однако, уже существуют проекты вроде https://stablehorde.net/, которые используют гораздо более незамысловатый подход из краудсорсинга и пула воркеров.

atepaevm Jan 12 2023 at 11:37

Отличная статья!

mt19937 Jan 12 2023 at 11:43

23.00: ну еще одного котика сгенерирую и спать)

04:00:

+11

averkij Jan 12 2023 at 13:40

А если добавить "by gediminas pranckevicius", то будут рисоваться карты к Имаджинариуму

Еще картинки

Firemoon Jan 12 2023 at 14:37

Спасибо за дополнение!

Я хотел дополнить текст стилями, что упоминание известных творцов влияет на стиль генерации, но и так статья вышла очень большая.

Lizdroz Jan 12 2023 at 18:13

Справа вверху картины Сальвадора Дали напоминает.

asdcxfrt Jan 13 2023 at 09:45

Попросите ChatGPT написать запросы.

У них же под капотом вроде одинаковый движок? Читал что ИИ отлично понимают друг друга.

RarogCmex Jan 15 2023 at 13:24

Нет, у них не одинаковый движок.
Нет, они не понимают друг друга.
ChatGPT просто чуть-чуть (вручную?) дообучен делать такие запросы.

iva2000 Jan 17 2023 at 10:21

А есть нейросеть, планирующая типовые инженерные конструкции, с выгрузкой 3d модели и чертежей?

К примеру галошницу в стиле лофт 700×500×370 из профиля 15×15 и мебельного щита толщиной 18. Я и сам такое могу, но попросить нейросеть набросать варианты было бы удобно.