Pull to refresh

Comments 68

Не знаю насчет Midjourney, но есть обратные генераторы, когда по картинке получаешь запрос для таких моделей. Если есть примеры (неон с белым фоном и тд.), то можно глянуть какой текст нужно ему отправлять. Мне кажется, что так нужно работать с этими моделями чтобы не гадать и не перебирать.

Вы имеете ввиду interrogator, вроде встроенного clip или, например, wd14tagger или что-то принципиально другое?

Да, скорей всего я видел clip-interrogator на huggingface, про который написали ниже, вряд ли что-то другое.

Можете скинуть пример такого генератора?
Чтобы именно картинку текстом описывал.
Просто у меня чувство, что вы путаете с чтением exif, практически все сети записывают туда запрос, для дальнейшей работы, и да, если картинка была сгенерирована нейросетью, то считав ее метаданные, можно получить начальный текстовый запрос, который был использован для ее генерации

Нет, не путает. Такая штука встроена в некоторые SD-дистрибутивы, например, automatic1111, или доступна онлайн.
Пример CLIP:
https://huggingface.co/spaces/fffiloni/CLIP-Interrogator-2

Пример Deep Danbooru (если я правильно понимаю, аналог wd14tagger):
http://dev.kanotype.net:8003/deepdanbooru/

Что-то нереальное. deepdanbooru распознало практически всё на картинке, даже сложные элементы О_о

Можно и зайца научить курить (с)

Сколько времени потратили на обучение?)))

А кого-то другого ещё курить учили? 😂😂

UFO just landed and posted this here
UFO just landed and posted this here

Особенно тяжело нейросетям даются провода. Видел сгенерированную картинку поезда: всё вроде бы нормально, но пантограф и контактная сеть - тихий ужас.

По моему опыту, хуже всего нейросетям даются велосипедисты на велосипедах

Прогресс налицо. Полгода назад рисовало только переплетение колёс и линий. Впрочем, и тут, только на 1й картинке что-то, в первом приближении, похожее

Ну, эти семь красных линий, возможно, похожи на то, что хотел заказчик. А может и нет ¯\_(ツ)_/¯

оригинальная задача несколько сложнее:
Нам нужно нарисовать семь прямых красных линий. Все они должны быть строго перпендикулярны, и, кроме того, некоторые нужно нарисовать зеленым цветом, а некоторые – прозрачным. Как вы считаете, это реально?

вот что получилось:

Hidden text

7 red perpendicular lines, 2 of which are green and 2 are transparent

Не смотря на безумную красивость, Midjourney, имхо, уже начал уступать Stable Diffusion в плане точности и возможностей для генерации.

Потому что пока MJ рос "вглубь", SD вырос "вширь".
Десятки моделей (сотни - если считать миксы), возможность добавлять собственные объекты, использовать эстетические градиенты, делать свои миксы или тонкую настройку под целевые изображения...

И это не говоря о гораздо более удобном туллинге (маски, в том числе 3д, для img2img); возможности генерировать сотни изображений в поиске того самого, правильного ракурса; возможности манипулировать запросом (включи вот этот термин с такого по такой шаг, с такой силой).

(Правда, стоит заметить слона в комнате, и признать, что значительное число моделей натренировано рисовать исключительно полуодетых анимешных девушек.)

Возможность дообучения и переобучения — это неоспоримый плюс SD. Правда, этот самый слон посреди комнаты...

Я слышал про SD в ключе именно отсутствия цензуры, но после вашего замечания (а так же замечаний комментаторов выше в этой статье и пара дискуссий в комментариях к статьям моих коллег) кажется, что разобрать SD повнимательнее — это хорошая идея.

Разобрать SD - это хорошая идея, если вам нужно сгенерировать что-то конкретное и сложное, с несколькими субъектами.
В таких случаях txt2img это только начало процесса. Потому что нейросеть не различает право/лево, не умеет считать (пальцы!), и не обладает пространственным мышлением.

Поэтому, если запросить рыжего кота в лягушачьей шапке на плече у пришельца в элипсойдном футуристическом кресле, ничего не получится. Кот будет, стул будет, возможно, если повезёт, где-то рядом будет пришелец.
Поэтому вместо того, чтобы делать картинку целиком, нужно разбить её на части, и добавлять элементы в формате коллажа.
Сделать кота в лягушачьей шапке. Кота на плече. Пришельца в футуристическом кресле. Затем применить навыки гимпа/фотошопа/пейнта, чтобы совместить это всё в одну картинку, и готовить на небольшом уровне шума до душевного спокойствия.

Нейросеть можно представить себе как очень пьяного художника. Рука помнит, как писать, но нужен постоянный контроль со стороны, чтобы получить то, что нужно. И возможности контроля в SD гораздо выше и гранулярнее.

Правда, стоит заметить слона в комнате, и признать, что значительное число моделей натренировано рисовать исключительно полуодетых анимешных девушек.

Спрос рождает предложение

Правда, стоит заметить слона в комнате, и признать, что значительное число моделей натренировано рисовать исключительно полуодетых анимешных девушек.

(разглядывая most downloaded на сайте, где модели публикуют)
Ну про анимешных - это не совсем верно. Хотя результат ожидаем, да.

civitai.com
Весьма NSFW по очевидным причинам.

EDIT: прочитал всю ветку и понял, как это выглядит :-) поэтому уточню - там чуть меньше приблизительно половины - про героические портреты разных персонажей в разных стилях. Вполне SFW - как раз на обложку книги. Но так получается, что если модель в принципе хорошо людей рисует, то персонажей различной степени (не) одетости оно тоже хорошо рисует.

Надо заметить, что civitai появился после того, как много моделей подобной направленности турнули с huggingface. Так что выборка не полностью репрезентативная.

С другой стороны, на том же Реддите половина постов - это либо девушки, либо "я научил нейросеть рисовать себя, смотрите!", так что.... да.

Вот она, сила открытого кода. Пока над MJ работает одна команда (пусть и за деньги), над SD колдуют сотни энтузиастов с горящими глазами, сочетая и складывая наработки друг друга

Из особенно впечатлившего меня — запуск на видеокарточках с 2ГБ VRAM (рекомендуется 8)

Ну и UI от Automatic1111 это прям офигенная штука. Настоящий швейцарский нож. Там, где не может SD, в UI интегрированы другие модели. Апскейл (до 2.0 был особенно полезен), исправление лиц, и ещё много-много опциональных плагинов.

Генерю при помощи SD, использую все версии, включая дообученную на датасете midjourney. И, к сожалению, они тоже, начиная с версии 1.5, скатываются в толерастию и цензуру. Причем делают это на уровне датасета, что сильно бьет по качеству. На текущий момент лучшую генерацию, по моему мнению, дают веса SD mdjrny-v4.ckpt. Хотя для outpainting'а, после mdjrny-v4 веса inpainting-1.5 дорисовывают шикарно. Для меня качество дорисовки и inpainting'а самое яркое впечатление от этих сетей.

Надеюсь появится кто нибудь еще, кто сможет обучать не обращая внимания на истеричное общественное мнение.

Мне кажется, идеальное применение - обложки к альбомам и саундтрекам для музыкантов.

И саундтреки тоже сгенерить.

Лица художников, рисовавших обложки к альбомам для музыкантов, представили?

Зачем представлять? Надо сгенерить

Тут и представлять не нужно. Тема является постоянным источником драмы и токсичности для сообществ художников и "ИИ-художников".

На артстейшн, например, уже был протест по поводу использования ИИ.

Скриншот Artstation от 14 декабря,

Доходит до смешного. Художника забанили на r/Art, потому что модератор посчитал, что она слишком похожа на генерацию ИИ. В ответ на предложение показать PSD-файл в качестве доказательства, модератор посоветовал художнику научиться рисовать в своём, "не похожем на ИИ" стиле. (история, eng)

Напомнило

И видимо, такая нейронная сеть не умеет считать. У неё есть понятия "один", "похожи" и "много". Как и у человека которого не учили считать.

Так, ну с горячими собаками мы разобрались. А как быть с горячими кисками? :D

Я попробовал разные цвета, разное построение предложений, синонимы к слову «background» — все бестолку.

Сначала удивился — вроде бы недавно генерировал себе именно что котов (правда, не неоновых, а психоделических) с разными фонами, и всё работало. Попробовал воспроизвести, и...

Посмотреть генерации

реально в 50% случаев запрос на белый фон игнорируется, а в остальных - смешивается с чёрным тем или иным образом. Но даже на генерации с абсолютно белым фоном само котообразное чёрное.

Я предположил, что это особенность акцента «neon», тянущего за собой по умолчанию «чёрный фон». Поигрался:

Найти белую кошку в светлой комнате

Определённо, есть завязка на «neon», не находите?

Но можно и белый фон, в итоге:

rainbow neon cat, white background

Мои поздравления!

Хотя все же стоило прислушаться к упрямству MJ: на черном фоне мне субъективно нравится больше.

Еще срабатывает "against white background".

На счет того, как генерируются руки и конечности. Меня тут заставили нарисовать сначала кошечку - я нарисовал только голову и получилось ровно и узнаваемо. Потом нужно было нарисовать собачку. Я решил ее сделать в профиль в полный рост и голова получилось нормально, а вот ноги очень криво. Очень естественно, что для человека конечности рисовать сложнее. Для нейросети видимо так же

Одна из шуток в сообществе Stable Diffusion зкалючается в том, что у нейросети так плохо получаются руки потому, что они получаются плохо и у человеческих художников.

Поэтому хитрые художники стараются их прятать, в результате чего у нейросети гораздо меньше референсов, и они более плохого качества.

Жаль запуск такой штуки не возможен на домашних мощностях. Нужно что-то на порядки мощнее чем 4090. Жаль не сделать децентрализованное решение на подобие майнинга для генерации картинок. Подключаешься к пулу и получаешь генерации согласно твоему вкладу в мощности.

Stable Diffusion спокойно работает на видеокартах от 8ГБ, для макбуков есть ещё и оптимизированные под CoreML версии. Так что если не нужен именно MidJourney, то генерация картинок сейчас очень доступная

Отлично работает даже без видеокарты. 5 минут на картинку.

MBP M1 Pro. SD сконевертирована в CoreML + Swift фреймворк для SD от Apple. Где-то 30 секунд на картинку 512х512 в 30 шагов.

P.S. если кто-то хочет попробовать SD на маках без лишних заморочек то искать DiffusionBee (больше функционала, SD v1.5) или Mochi Diffusion (UI для оптимизированной под Apple SD)

Генерация - да, но чтобы дообучить модель своим объектом - будь добр иметь хотя бы 16 Гб видеопамяти, а лучше все 24

Не обязательно дообучать, можно подключить Hypernetwork. 8ГБ видеопамяти достаточно будет и результат неплохой.

От 4Гб видеокарты поддерживаются (для работы SD).

У меня SD на моей GTX1070 работает нормально. Хотелось бы побыстрее конечно, но терпимо, результаты можно получить неплохие и быстро. К примеру гриды 4*4 генерятся в среднем 20-30мин (90 сэмплов, 512*512). Даже Hypernetwork обучается. С Dreambooth, да, не хватает VRAM. Но вроде можно задействовать CPU

Прошу прощения за любопытство, но зачем вам 90 сэмплов? Вроде бы на большинстве не-ansestrial сэмплеров разница почти исчезает на 30 шагах, на некоторых моделях - на 15-20.

По поводу Dreembooth - есть (непроверенная, с геморроем) инструкция для 8gb.

Ну с моими любимыми сэмплерами разница есть между 30/60/90 (SD 2.1). 30 Мне вообще не нравится, может для каких-то определенных целей и подойдет :)

Над децентрализованным решением для нейросеток уже работают.

Не так давно вышел проект большой текстовой модели https://petals.ml/, который заявляет о скорости генерации в 1 токен/секунду при размере модели 100B.

Можно ли так делать с Midjourney - мы не знаем, его архитектура вроде закрыта. Со Stable diffusion так тоже не получится, по крайней мере по мнению диванных экспертов.

Однако, уже существуют проекты вроде https://stablehorde.net/, которые используют гораздо более незамысловатый подход из краудсорсинга и пула воркеров.

23.00: ну еще одного котика сгенерирую и спать)

04:00:

Спасибо за дополнение!

Я хотел дополнить текст стилями, что упоминание известных творцов влияет на стиль генерации, но и так статья вышла очень большая.

Справа вверху картины Сальвадора Дали напоминает.

Попросите ChatGPT написать запросы.

У них же под капотом вроде одинаковый движок? Читал что ИИ отлично понимают друг друга.

  1. Нет, у них не одинаковый движок.

  2. Нет, они не понимают друг друга.

  3. ChatGPT просто чуть-чуть (вручную?) дообучен делать такие запросы.

А есть нейросеть, планирующая типовые инженерные конструкции, с выгрузкой 3d модели и чертежей?

К примеру галошницу в стиле лофт 700×500×370 из профиля 15×15 и мебельного щита толщиной 18. Я и сам такое могу, но попросить нейросеть набросать варианты было бы удобно.

Sign up to leave a comment.