mochila00731 мар 2023 в 10:19

Фотореализм без Midjourney: тестируем новую нейросеть

Простой

3 мин

26K

ДизайнИскусственный интеллектData Engineering *

Обзор

Комментарии 56

mrCOTOHA 31 мар 2023 в 10:42

Пришлось зарегестрироваться.

Stable Diffusion. Бесплатно. Оффлайн.

Даже видео есть, как это все поставить https://youtu.be/jepK6ufemMw

mochila007 31 мар 2023 в 10:44

да, но для этого необходима своя видеокарта объёмом от Гб или от 12 Гб если в разрешении 1024х1024 генерировать, место на диске, время на установку и обслуживание софта и умение работать с Git, как минимум. Как простому пользователю, проще было просто зайти в Телеграм и нажать кнопочку "создать изображение"

AlexB17 31 мар 2023 в 11:00

На RTX 2070 с 8Гб в Automatic111 + xformers прекрасно рендерю картинки выше чем 1024х1024 а еще есть скрипт Ultimate SD Upscale где тайлами можно хоть до 2К\4К повышать детализацию.
Плюс имею полный инструментарий для работы: img2img, inpainting, ControlNet, апскейлинг с codeformer различные модели, эмбеддинги и т.д.

mochila007 31 мар 2023 в 11:18

Пользователи сейчас в основном с ноутбуков или смартфонов сидят. Не в каждом ноутбуке есть видеокарта более 4 Гб, а на смартфонах Automatic111 не поставишь.
Давайте представим образ пользователя: женщина 35 лет, работает в общепите, приходит домой и хочет просто оформить свою страницу в соцсети или же сделать изображения для контента в блоге о рукоделии или кулинарии. Ей нужен будет Auromatic111, разбираться с разновидностью нейросетей, где скачать веса, как обучить Lora/эмбеддинги и что такое ControlNet или же она захочет просто воспользоваться готовым решением, которое сэкономит её время и деньги на приобретение "железа"? Ответ очевиден)
Для профессионального использования, конечно, необходимо разбираться в теме и можно всё локально использовать, но в то же время, далеко не всё есть в открытом доступе для скачивания весов. Это как фотошоп - кто-то покупает и пользуется софтом для обработки фото, ведь он фотограф, а кто-то - заходит в фоторедактор онлайн и пользуется им.

gsaw 31 мар 2023 в 12:09

Ну так можно еще усложнить исходные данные. Света нету дома, компьютер сломался.

Имхо 2070 это уже доступно по цене, для того, кто хочет просто попробовать. Не говоря уже о том, что бы использовать в своем проекте.

А заплатить 10 баксов и сгенерировать картинку, это не отдать фрилансеру 100 баксов и получить "он художник, он так видит".

AlexB17 31 мар 2023 в 12:14

По пунктам:
1) Ноутбуки с той же мобильной 3050 это уже самый верх офисного сегмента и доступны при грамотном выборе каждому. А игровые решения за чуть большие деньги запустят без проблем.
2) Плохо представляю как такая женщина работающая в общепите раньше пользовалась Midjourney через дискорд и имеет страницу в соцсети с AI артами. Скорее эта женщина найдет для себя бесплатные playgroundai или lexica где можно копипастить промты и делать ремиксы.
3) Согласен, вникнуть во все возможности Automatic111 сможет не каждый, но ведь для создания картинки с базовой моделью нужна лишь строка промта - она работает "из коробки" а уже постепенно потом изучать функционал, покачать модели, посмотреть пару видео на ютубе про настройки может каждый.

Mortello 2 апр 2023 в 12:59

По второму пункту. Озвученной ЦА сервиса, место публикации не очень соответствует

По третьему. Все в открытом доступе. Какой смысл заявлять об отсутствии в свободном доступе если опровергается за 5 секунд? Huggingface и civit.ai - качай сколько влезет..

mochila007 2 апр 2023 в 13:02

Результатов, получаемых в боте, вы не получите в моделях из HF или CivitAI, потому что модель не публиковалась, об этом речь. То что аналоги на SD можно найти на тех платформах - это и так понятно. Но использовать их будет небольшая аудитория, в отличие от желающих получать результат быстро и прямо в мессенджере.

Условно месседж такой: мне, как пользователю, удобнее зайти в интерфейс и тыкнуть одну кнопку, при желании получить сотни генераций за 100 руб., чем лезть в дебри Automatic и тратить на это время.

rogoz 31 мар 2023 в 11:00

своя видеокарта

От 4 Гб.
Более того, как минимум Automatic111 можно запустить на процессоре, только будет очень медленно, но на попробовать хватит.

mochila007 2 апр 2023 в 06:21

Automatic требует своё железо и память на диске, а также необходимость следить за кривыми постоянными обновлениями репозитория, смотреть мердж-реквесты и экстеншены, ведь даже за последние 2 недели обновления в Automatic были багнутыми несколько дней.

Плюс про 12 Гб не просто так сказано - SD 2.1 и SD 2.2 XL при 1024х1024 со слоями эмбеддингов и/или Lora требуют 12 Гб видеопамяти при локальном использовании.

Повторюсь, что намного экономнее по времени просто нажать кнопку "создать" со смартфона, чем идти за комп/ноут и забивать память и ресурсы устройства сторонним софтом.

314159abc 2 апр 2023 в 16:15

Отлично все ставится в гугл колаб. Жмякаешь три раза кнопочку плей, получаешь ссылку на веб-интерфейс автоматика. Очень легко, куча туториалов на ютубе. По ссылке легко туда загрузить любую модель из чекпоинтов sd. Генерит одно изображение секунд пять-десять. Скачивать ничего не надо. Платить тоже.

sneg2015 4 апр 2023 в 08:15

Колаб в бесплатной версии справляется? Внешнюю карту не подключали?

Mortello 2 апр 2023 в 12:49

В разрешении 1024*1024 генерировать особого смысла нет, гораздо удобнее батчем 4*512*512 а потом апскейлить то что понравилось. Гит там не необходим (но иногда может помочь). Есть возможность задать количество шагов или семплер? Задать вес конкретному токену в промте?

От 12 gb vram? Прекрасно работает на 6-и, на 4-х запускают без особых проблем.

mochila007 2 апр 2023 в 13:13

Веса токенам и негативный промт задать там можно, изображения с маленьким разрешением в стоке без увеличения пользователям неинтересны. Пользователь хочет получать в один клик минимум 1024 пикселей, т.е. чтобы в 4 раза больше информации на изображении без апскейлеров содержало изображение, чем при 512х512.

Хороший апскейлер будет увеличивать до 4096х4096 более 3 минут, пользователь ждать не будет. Что-то среднее типа ESRGAN за 10-30 секунд Х4, но надо исходник больше размером, чтобы было меньше потерь деталей. Поэтому 1024х1024 вариант лучше и практичнее, чем 512х512.

И вот да, на 4-6 Гб 512х512 и даже 768х768 при инференсе моделей SD1.5 запустить можно, для SD2.1 XL уже надо 12 Гб минимум при 1024х1024. И да, SD2.1 XL опубликуется только в ближайшие недели в свободный доступ, пока из последних только SD2.1, которой тоже при 1024х1024 надо 12 Гб чтобы хорошо себя чувствовать, о чём писалось здесь ранее.

nidalee 2 апр 2023 в 13:33

Пользователь хочет получать в один клик минимум 1024 пикселей, т.е. чтобы в 4 раза больше информации на изображении без апскейлеров содержало изображение, чем при 512х512.

Оставьте уже этот максимализм, ей-богу. Больше — не значит лучше. У вас в статье на картинках 40-60% изображения это фон в ОГРОМНОМ количестве мыла. Зачем вам там эти пиксели?
И я вас уверяю, как человек, который в свое время пытался пропихнуть авторам видео на patreon адекватные параметры сжатия и даже пилил для них однокнопочные сжималки в надежде, что они начнут нормально сжимать свое видео из lossless PNG раскадровок — пользователям глубоко плевать, сколько у них там пикселей. Даже тем, кто работает с 3D и видео. Не говоря уже о домохозяйках и прочих.
Большинство потребителей контента смотрят его на телефонах. Нет там никакой нужды в деталях. Почти никто с этим не заморачивается.

Ваши посты потом растащат по Интернету, и будут свято верить, что 12ГБ — это минимум. Хотя на самом деле, это минимум для абсолютного меньшинства не самых полезных моделей (цензура, черные списки художников и прочие чудеса корпоративного управления отбивает у большинства энтузиастов желание что-то делать с этим инструментом). А без энтузиастов, ну… Никто их дообучать, миксовать не будет. Ну ладно, будут, 5% от пользовательской базы.
Вижу какую-то пользу в бесплатном клоне Midjourney. В платном — не очень.

Опять же — ничего личного, просто вот от этих «12ГБ минимум», «много места занимает», «надо следить и обновлять» — корежит, как пользователя. Нет там ничего сложного или требовательного. Народ на картах 6-и летней давности прекрасно себе генерирует. И на ноутбучных.

mochila007 2 апр 2023 в 18:25

Я лишь наблюдаю рост комьюнити тех, кто хочет смотреть на изображения в высоком разрешении, а не 512х512. Даже со смартфона такое разрешение выглядит не очень, ведь большинство смартфонов имеют разрешение 2К, либо FHD. Большинство людей не слышали про AUTOMATIC, а если им сказать, что там надо сделать git pull с такого-то репозитория, то у ~95% это вызовет сразу отвращение и останутся как раз те 5%, которые пойдут в Colab или развернут локально.

То что общество, создающее визуальный контент, делится на 2 секты - кто простой потребитель и кто пользуется в профессиональных кругах - это тоже так. Одни хотят написать 2 слова и получать готовый результат, а другим - важно контролировать параметры, изучать как устроено под капотом и т.д. Условно будем считать, что это как "одни верят в науку, а другие - в магию". Обе секты будут существовать до тех пор, пока будет спрос.

Если есть спрос на генерацию изображений в один клик - будет и предложение. Каждый день я наблюдаю, как такие комьюнити, кому проще отдать 100 рублей, чем лезть в дебри Automatic только растёт и это неудивительно. Тем более, что там ChatGPT прикручен ещё как вспомогательная нейросеть, всё в одном месте и не надо бегать в разные сервисы.

serg_borisovich 19 апр 2023 в 07:21

Наблюдаю рост комьюнити - где? Есть цифры которые можно проверить.

Я пользуюсь Midjourney пару месяцев, 12 тысяч изображений, нет подходящей техники для SD и желания и стимула разбираться.

Mj выдает регулярно новые инструменты /decribe например, когда можешь любую картинку закидываешь, получаешь описание и тут же можешь нажатием кнопок получить 4 варианта изображения из описания. А ещё смешивание изображений /blend выдает интересные результаты.

Состою в чате SD от теплицы социальных технологий, что также не помогает найти мотивацию. За 3000 р месяц я получаю безлимитные (ограничение а ожидании есть) возможности, с любого устройства.

При первой возможности я конечно приобрету подобающую технику и поставлю SD. А пока мне ещё бы освоить все возможности MJ5 с ChatGPT 4.

unwrecker 31 мар 2023 в 10:45

Всё прекрасно, но стейк то не прожарен! :)

mochila007 31 мар 2023 в 10:48

сделаю замечание нейросетевому повару ) не получит мишлен

ITMatika 31 мар 2023 в 11:00

Подскажите, как использовать параметр negative_prompt? Например, как negative_prompt:28? Какие допустимые значения?
Как использовать стиль, скажем, Maxfield Parrish?

mochila007 31 мар 2023 в 11:05

в боте есть ссылка на руководство по использованию, она перед стартом генерации даётся (кидать здесь не могу т.к. без понятия как Хабр отреагирует на них). negative_prompt: плохая анатомия тела, водяной знак... - т.е. прописываете значения, что именно надо удалить на изображении.

В боте при генерации есть 8 стилей изображения (прописываются параметром style), а прочие вы можете указать самостоятельно.

Например: Девушка за рулём автомобиля в стиле художника Ван Гога

Javian 31 мар 2023 в 11:15

ворона сидит на ветке дерева

с когтем на левой лапе проблема.

AlexB17 31 мар 2023 в 11:17

Это вы еще на хвост со смещением не обратили внимание )

Gor40 1 апр 2023 в 06:47

А можно просто переименовать в "ворона сидит на ветке дерева после тяжёлой драки"

ABATAPA 31 мар 2023 в 11:26

Сделал ~5 запросов, ни в одном не получил ни желаемого, ни более-менее близкого к реалистичному изображения: везде размытый фон, везде персоны с каких-то рекламных или стоковых фото и т. д. ну, и косяки:

Девушка в модном открытом(?) купальнике выходит из воды на пляже Анапы(?).

mochila007 31 мар 2023 в 11:28

если есть ошибки в генерации, то можно увеличить steps хоть до 100 или изменить style (доступно 8 стилей, описанных в руководстве)

ABATAPA 3 апр 2023 в 05:38

стиль был указан (реализм), количество шагов (и размер изображения) указано, но почему-то игнорируются:

Ну и да, до реализма тут очень далеко. И во всех моих примерах видно, что изображения — калька рекламных (стоковых) фото. Нейросеть обучали только на "ванильных" картинках?

mochila007 3 апр 2023 в 13:45

потому что в руководстве явно указано, что максимальное разрешение 1024х1024 и при разрешении 1024 максимальное кол-во шагов 55. Параметры от запроса отделяются с помощью ;

Если не отделять с ;, то кусок с параметрами идёт в запрос, а это уже лишний шум. Для фотореалистичности в запросе можно было добавить слова-усилители: RAW, hdr, гиперреализм.

bilayan 31 мар 2023 в 11:52

Это не Midjourney, тут запросы формулировать надо тщательнее. На ютубе уже очень подробно за эти месяцы рассмотрели. Так же к этому сейчас добавились и редактор поз и много еще всяких возможностей.
Несмотря на то что автор канала мне не нравится, но в видео у него очень подробно рассмотрены большая часть аспектов
https://www.youtube.com/playlist?list=PL05SB3rBbUsprkMgH3yDV12MuuIbO5KEq

mochila007 31 мар 2023 в 12:01

у Христа много интересного есть)

VadimProfii 31 мар 2023 в 14:42

Ноги зачем обрезали? Непорядок.

iiiytn1k 31 мар 2023 в 16:08

Да уж... Насколько же Stable Diffusion превосходит все эти поделия.

Это, конечно, не Анапа, и не Сочи, и не Геленджик... Но тоже ничего.

Hidden text

Hidden text

RAW photo, (realistic:1.2), solo, long hair, blonde hair, hair over one eye, blue eyes, sharp eyes, full shot body, photo of a girl in a fashionable bikini comes out of the water on the beach, (beach background:1.2), full body, standing, intricate details, sunny day, hand on hip, small breast 
Negative prompt: (worst quality:1.4), (low quality:1.4), (monochrome:1.1), (multiple persons:1.3), cropped, bokeh, blurred 
Steps: 30, Sampler: DDIM, CFG scale: 9, Seed: 1582924993, Size: 768x512, Model hash: 0d27c62ffa, Model: realdosmix_, Denoising strength: 0.6, Clip skip: 2, Hires upscale: 2, Hires steps: 20, Hires upscaler: Latent

mochila007 31 мар 2023 в 16:33

это в какой модели? или чистый stable?

iiiytn1k 31 мар 2023 в 16:35

Во втором спойлере промпт.

Model hash: 0d27c62ffa, Model: realdosmix_

https://civitai.com/models/6925/realdosmix

mochila007 31 мар 2023 в 16:42

вот то что по вашему запросу получается в боте

boingo-00 31 мар 2023 в 11:35

Заселфхостить можно?

mochila007 31 мар 2023 в 12:00

возможно, в этом вам подскажут у них в чате

FreeOnn 31 мар 2023 в 11:49

У автора уже был пост о создании бота TurboText для текста, теперь автор пишет что решил дать шанс российским разработчикам— TurboText. Автор Вы больше никак не связаны с TurboText? Или это просто реклама где вы якобы как случайный пользователь нашли такой великолепный проект.

Tangeman 1 апр 2023 в 12:59

Настоящий прогресс наступит тогда когда ИИ научится рисовать собак верхом на котах. Пока что мне не удалось добиться этого ни от одной нейросети - при запросах типа "собака верхом на коте" в разных вариациях и на разных языках всё равно получается наоборот - коты верхом на собаках. В лучшем случае и если долго пробовать собака может оказаться где-то над котом или его частью, но никак не верхом.

iiiytn1k 1 апр 2023 в 16:13

semennikov 2 апр 2023 в 09:01

Кот какой то не кошачий...Больше похож на собаку с кошачьей мордой, да и морда больше на собачью смахивает. Но все равно здорово!

nidalee 2 апр 2023 в 03:55

Уберите про "12 ГБ" нафиг, не пугайте народ почем зря.
С 8 ГБ уже комфортно (и можно даже обучать lora), а минимум, как написали выше, вообще 4 ГБ.
Больше 10 по факту нужно только для dreambooth.

mochila007 2 апр 2023 в 06:28

SD 2.1 и SD 2.2 XL, которые здесь использовались в основе для дальнейшего обучения моделей, требуют минимум 12 Гб видеопамяти при генерации изображений в 1024х1024 со слоями Lora и/или эмбеддингов.

Вы путаете с легковесными SD 1.5, которые можно запустить на 8 Гб при 1024х1024. Но это речь идёт об Automatic - сторонний софт, который надо ставить себе на ноут/комп и забивать хранилище и ресурсы устройства, к тому же, постоянно следить за обновлениями и экстеншенами в репозитории, ведь открытая в доступе софтина только за последние 2 недели выходила из строя несколько раз.

Намного проще нажать со смартфона "создать изображение" и получить результат за секунды, чем установить, изучить сторонний софт, забивать устройство обновлениями. И это при условии, что для установки уже есть соответствие системным требованиям, которые постоянно растут.

nidalee 2 апр 2023 в 07:12

SD 2.1 и SD 2.2 XL, которые здесь использовались в основе для дальнейшего обучения моделей, требуют минимум 12 Гб видеопамяти

SD 2 - один из лучших примеров того, что обновления не всегда делают лучше. Ну вон вам в комментариях выше накидали примеров на 1.5. Сравните. Небо и земля.

Да и вообще, сдались вам эти 1024х1024 квадраты? Куда их девать? Я на своих 24 ГБ генерирую 910х512 (или наоборот, в зависимости от того, вертикальная картинка или горизонтальная в планах) и не жалуюсь. Не зря же там апскейлеры встроены.

Но это речь идёт об Automatic - сторонний софт, который надо ставить себе на ноут/комп и забивать хранилище и ресурсы устройства

Если у пользователя нашлось 64 гига на Винду, то у него найдется 10 на webui. Ставится он в один клик. Для тех, кому сложно два.

постоянно следить за обновлениями и экстеншенами в репозитории

Для генерации того, что у вас в примерах, никаких экстеншенов не нужно. Как и обновлений (работает - не трожь). А вообще, научиться делать cd в папку и git pull стоит каждому. Этого, в целом, и достаточно.

И это при условии, что для установки уже есть соответствие системным требованиям, которые постоянно растут.

Когда росли требования у automatic webui?

Намного проще нажать со смартфона "создать изображение" и получить

...откровенную ботву, на уровне того, что на двачах генерировали в октябре прошлого года.

SevenLion 2 апр 2023 в 06:21

Классно работает. Не хуже, чем Midjorney. Но очевидно, что с первого запроса не всегда получается то, что хочешь... Нужно тренироваться. Спасибо разработчикам за инструмент!

Veselyi_kot 2 апр 2023 в 22:10

Можно проще.

Вариант раз:Stable Horde плюс любая модель на фотореализм (напр-р, Dreamlike Photoreal или Realistic Vision). Инструкция тыц.

Вариант два: генератор картинок от Bing. Ссылка тыц, нужен VPN и аккаунт мелкомягких.

Оба:
Полностью бесплатны, без ограничений на использование (жесткого лимита, завязанного на «плати или проваливай»).
Дают реалистичную картинку. Для бинга достаточно простого запроса на более-менее нативном языке, для Stable нужен промт (шаблон по ссылке тыц, там же настройки крутилок, от которых можно отталкиваться).
Тоже работают в браузере, требуя из железа только «руль от унитаза».
В отличие от жадного Midjourney, авторские права принадлежат вам даже при работе с Bing. SH вообще ни на что не претендует даже в теории.

Dane_Rider 5 апр 2023 в 09:42

Что-то какая-то шляпа получается.

Вот, например

Запрос: Девушка брюнетка со спортивной фигурой в синем бикини стоит на берегу моря на песчаном пляже, белый песок, рядом кокосовые пальмы, море голубое? прозрачное b спокойное, фотореализм, высокая детализация, вид спереди, style: realism, width: 1024, weight: 1024 — Запрос:
Девушка брюнетка со спортивной фигурой в синем бикини стоит на берегу моря на песчаном пляже, белый песок, рядом кокосовые пальмы, море голубое? прозрачное b спокойное, фотореализм, высокая детализация, вид спереди, style: realism, width: 1024, weight: 1024

Dane_Rider 5 апр 2023 в 09:44

Или вот:

Запрос: Фотореалистичное изображение, raw фотография, загородный дом из дерева, газон и цветы, дорожка к дому, солнце светит мягко, голубое безоблачное небо, на газоне играют большой рыжий кот мейн-кун и две маленькие собаки той-терьер чёрно-коричневого окраса и чихуахуа кремового окраса, высокая детализация, профессиональное фото, снятое на зеркальную фотокамеру — Запрос:
Фотореалистичное изображение, raw фотография, загородный дом из дерева, газон и цветы, дорожка к дому, солнце светит мягко, голубое безоблачное небо, на газоне играют большой рыжий кот мейн-кун и две маленькие собаки той-терьер чёрно-коричневого окраса и чихуахуа кремового окраса, высокая детализация, профессиональное фото, снятое на зеркальную фотокамеру

mochila007 5 апр 2023 в 12:18

И преобразуем ваш этот запрос:

RAW фото, дачный дом из дерева, рядом с домом газон и цветы, на газоне играют большой рыжий кот мейн-кун и две маленькие собаки той-терьер и чихуахуа, мягкое освещение, профессиональное фото, сложные детали; steps: 100, v_model: v2, style: realism

Dane_Rider 5 апр 2023 в 13:19

Интересно. Попробовал с вашим запросом.
Результат вышел так себе.

Dane_Rider 5 апр 2023 в 13:22

Ещё раз тоже самое по вашему запросу - чуть лучше, но всё ещё так себе.

по вашему

mochila007 5 апр 2023 в 19:02

хм, мой результат был получен с первой попытки. Можете взять seed и воспроизвести результат: seed: 9585251435, steps: 100, width: 768, height: 768

mochila007 5 апр 2023 в 12:07

потому что так запрос не строится, не отделены параметры от запроса и много шума в самом запросе с лишними символами и фразами, а слово weight - это вовсе означает "вес", а не высота height.

Ваш запрос можно преобразовать в такой:
RAW фото, спортивная девушка брюнетка в синем бикини стоит на песчаном морском побережье, белый песок, рядом кокосовые пальмы, гиперреализм, профессиональное фото; v_model: v2, width: 1024, style: portrait В результате увидите нормальное изображение.

Dane_Rider 5 апр 2023 в 13:20

Про weight моя опечатка.

Пробу по вашему же запросу - вот результат, вышло неплохо. Не фото, но вообще неплохо.

Dane_Rider 5 апр 2023 в 13:27

Запрос: RAW фото, дачный дом из дерева, рядом с домом газон и цветы, на газоне отдыхает большой рыжий кот мейн-кун, мягкое освещение, профессиональное фото, сложные детали, гиперреализм; steps: 100, v_model: v2, style: realism — Запрос:
RAW фото, дачный дом из дерева, рядом с домом газон и цветы, на газоне отдыхает большой рыжий кот мейн-кун, мягкое освещение, профессиональное фото, сложные детали, гиперреализм; steps: 100, v_model: v2, style: realism

Dane_Rider 5 апр 2023 в 13:39

А вот это получилось очень неплохо (конечно, это не Вавилон 5, но допускаю, что нейросеть про него не знает).

Запрос: RAW фото, космическая станция дальнего космоса Вавилон 5, много деталей, гиперреализм; style: realism, width: 1024, height: 768, steps: 50, scale: 8, seed: 12345, v_model: v2 — Запрос:
RAW фото, космическая станция дальнего космоса Вавилон 5, много деталей, гиперреализм; style: realism, width: 1024, height: 768, steps: 50, scale: 8, seed: 12345, v_model: v2

Зарегистрируйтесь на Хабре, чтобы оставить комментарий