timonin Nov 19 2023 at 09:23

Fooocus v2 — бесплатный Midjourney у вас на компьютере. Подробная инструкция по установке и использованию нейросети

Easy

10 min

345K

Graphic design*The future is hereArtificial Intelligence

Tutorial

+115

219

Comments 219

Pinned comments

timonin Nov 26 2023 at 13:45

Читайте продолжение: Fooocus v2: Революция в работе с изображениями — расширение, изменение и персонализация. Все про Input Image в нейросети

ImagineTables Nov 19 2023 at 10:56

Как на КДПВ-гифке генерируется лого-текст поверх картинки? В промпте я его не вижу, но промпт вообще трудночитаем. Кроме того, результат выглядит подозрительно. Постпроцессинг?

timonin Nov 19 2023 at 11:01

В пост продакшене только подрезал и ускорил, увы, mp4 хабр до сих пор не умеет, я бы залил с качеством по лучше, можете у меня в тг посмотреть в полном разрешении.

Это Image Prompt, Canny, куда загружено png с текстом, при изменении промпта текст стилизуется в "тему". Это как раз то, о чем я планирую рассказать в продолжении статьи.

ImagineTables Nov 19 2023 at 12:35

png с текстом

Благодарю за ответ. Это было второе предположение после постпроцессинга. Только я предположил более автоматизированное решение: png с текстом не принимается на вход, а растеризуется классическим алгоритмом из промпта со специальным keyword'ом.

Без подобных трюков, по моему глубокому убеждению, с текстами работать не выйдет. (Это, кстати, ответ на вопрос про магазин «Пятёрочка» ниже — будет вывеска «Птрчкаа»).

timonin Nov 19 2023 at 12:50

Кстати SDXL модели с короткими текстами, типа популярных имен или компаний, справляются по лучше, но длинные да, приходится фиксировать с помощью карт ControlNet.

crazysmith Nov 19 2023 at 11:03

Вот сколько вижу подобных локальных генераций - постоянно то избитая супергероика, то знаменитости в каком-либо окружении. Есть ли примеры генерации, например, магазина Пятерочка в каком-нибудь спальном районе Белграда?

timonin Nov 19 2023 at 11:08

Примеры создаются для максимальной абстракции и донесения того, на что нейросеть вообще способна, я прекрасно понимаю что любой читатель Хабра так или иначе знает как выглядит Харли Квин и сможет оценить как она получилась.

А вот как выглядит магазин Пятерочка, скорее всего не знает даже дата сет, на котором производилось обучение моделей, а значит сгенерировать его будет уже не так-то просто, надо будет использовать дополнительные инструменты, редакторы или расширения. Но невозможного в наше время нет и если поставить перед собой такую задачу, то можно хоть Магнит в космосе, хоть Ашан в Калуге сделать.

smart_alex Nov 19 2023 at 14:08

я прекрасно понимаю что любой читатель Хабра так или иначе знает как выглядит Харли Квин

Харли Квин? Это кто? И почему я «так или иначе» должен это знать?

timonin Nov 19 2023 at 14:18

Потому что вы не живете в информационном вакууме, судя по тому, что зашли в интернет и так или иначе слышали или видели этого персонажа, а может быть вы как раз то небольшое исключение. Хорошо, не аккуратно использовал слово "любой", давайте заменим его на "большинство".

smart_alex Nov 19 2023 at 14:26

Погуглил. Если я правильно понял, это какая-то «суперзлодейка».

Видимо у нас разный интернет — я это «чудо в перьях» первый раз увидел с вашей подачи.

Zangasta Nov 20 2023 at 06:41

Видимо у нас разный интернет — я это «чудо в перьях» первый раз увидел с вашей подачи.

Я бы на вашем месте обратился к врачу --- скорее всего у вас провалы в памяти. Просто потому, что Харли Квин настолько часто упоминается вне контекста, что не знать кто это практически невозможно.

Ну или вы узнали её, а сейчас просто кокетничаете: "Ах, да я такой неграмотный, расскажите мне о ней больше, пожалуйста". Если это так, то конечно продолжайте, я вас осуждать не буду.

vanderlyap Nov 20 2023 at 09:25

оставьте его! человеку очень важно доказать случайным людям в интернете что он "не в тренде", таким не от избытка радости занимаются..

ussrisback Nov 20 2023 at 09:26

200 лет назад утверждение "я прочел все книги в мире", запросто могло быть правдой. 30 лет назад утверждение "я просмотрел весь Интернет", так же запросто могло быть правдой. вы действительно считаете, что сегодня человек может знать все обо всем, что происходит в цифровом и реальном мире? мне лично это имя тоже незнакомо.

Zangasta Nov 20 2023 at 09:59

вы действительно считаете, что сегодня человек может знать все обо всем, что происходит в цифровом и реальном мире?

«Жить в обществе и быть свободным от общества нельзя»

Это я к тому, что все известные мне случаи, когда человек вставал в позу и спрашивал: "А что это такое ДОМ2" --- были интеллектуальным снобизмом.

Потому что я сразу сообщал что ДОМ2 --- это клуб высоколобых интеллектуалов, что-то вроде современного "Очевидного-Неверотяного" и собеседник палился:

--- Это Май Абрикосов тебе интеллектуал?

--- А говорил что ничего не знаешь!

DonStron Nov 19 2023 at 19:03

Харли Квин? Это кто? И почему я «так или иначе» должен это знать?

А что за претензия? По вашему автор обязан использовать в примерах только то, что непосредственно вашему "я" хорошо знакомо?

Токсичные комментарии типа вашего могут отбить желание писать статьи. Ответ автора заминусовали, думаете это способствует желанию делиться знаниями или комментировать? А мне интересны подобные статьи!

Вы явно же просто доколупались. И удивительно, что ещё кто-то поддержал это доколупывание минусами.

Что с вами, люди? Нужно самоутвердиться за счёт кого-то?

smart_alex Nov 20 2023 at 04:15

Что с вами, люди?

С нами всё в порядке. Просто раздражает засилие поп-культурного идиотизма и претензия автора на то, что все должны быть в этом (идиотском) контексте.

DonStron Nov 20 2023 at 05:52

Если вас раздражает - это уже не в порядке. В мире равномерно представлены и красные фломастеры и зеленые, но вам не нравятся зеленые, поэтому вы на них обращаете внимание чаще и раздражаетесь. Разве это нормально?

Psyku Nov 23 2023 at 05:57

Раздражаться - это вполне нормально)) Не любить зеленый - тоже вполне нормально. Автор и вы любите зеленый, а вот человек любит красный. Высказал мнение, это нормально. Меня тоже раздражает стереотипная супергероика, значит нас уже минимум двое)) найдутся и еще

Okeu Nov 20 2023 at 08:55

ну кто-то, например я, знаю ее из-за мульт-сериалов 90х-00х годов)
Фильмы с Харли не смотрел, из всего DC после темного рыцаря 2008, я посмотрел только джокера.
ПыСы: мне казалось, что контркультурное поведение в отношении попсы проходит вместе с пубертатом)

xenon Nov 19 2023 at 23:05

Это такая Королева бензоколонки, но для молодежи.

iig Nov 20 2023 at 09:27

Королева бензоколонки, но для молодежи

А есть Бэтмен и Джокер, только для стариков? ;))

Zangasta Nov 20 2023 at 12:53

Конечно есть. Это Фантомас и Клоун Клепа.

iig Nov 20 2023 at 14:01

Фантомас и Клоун Клепа

А в какой вселенной у них было противостояние? ;) Я бы посмотрел ;))

Deeptown Nov 20 2023 at 15:19

Конечно есть!

SquareRootOfZero Nov 20 2023 at 02:35

А есть техническая возможность как-то докормить уже готовую модель фотографиями магазина "Пятерочка"?

timonin Nov 20 2023 at 09:30

Да, это то что называют fine-tuning, дообучение уже существующей модели на пользовательских данных, большинство моделей так и получается. Но можно обучить и лору, мини модель, которая будет знать только про одну концепцию, вывеску магазина Пятерочка, например, это будет сделать проще и по ресурсам и по подготовке.

Dolios Nov 20 2023 at 20:31

я прекрасно понимаю что любой читатель Хабра так или иначе знает как выглядит Харли Квин и сможет оценить как она получилась.

Я не знаю, вообще половину отсылок не понял. Потом загуглил, тут большая часть из комиксов и из кино по комиксам. Вы правда думаете, что всем это интересно?

SquareRootOfZero Nov 20 2023 at 02:33

По запросу "Shop "Pyaterochka" in a residential area of Belgrade" сгенерировало вот это. Все настройки и т. п. дефолтные.

Aniro Nov 20 2023 at 15:23

Ну по стилю старого Белграда попал неплохо. Pyaterochka кажется так себе промпт - в датасете по этому слову почему-то залежи картошки: https://rom1504.github.io/clip-retrieval/?back=https%3A%2F%2Fknn.laion.ai&index=laion_400m&useMclip=false&query=Pyaterochka

Ogoun Nov 20 2023 at 15:23

Pyaterochka store in some residential area of Belgrade

Кажется сеть честно пыталась даже заданное название написать. Сгенерил в фокусе без допсредств, типа ControlNet, по вашему промпту.

SquareRootOfZero Nov 20 2023 at 18:08

У меня оно тоже пыталось название вписать - мне, как дилетанту в области ИИ, этот фейл с названием первым бросается в глаза. Но это, скорее всего, значит, что подобными "фейлами" картинка полна, просто остальные не так в глаза бросаются. На вашей картинке следующий по заметности косяк - это, наверное, тканевые занавески, заправленные под ажурные арочные окна. А ведь оно, говорят, то ли уже программы за нас пишет, то ли вот-вот начнёт...

edtech Nov 21 2023 at 00:58

Попробовал немного рассказать нейросети про Пятерочку и про спальные районы Белграда

timonin Nov 21 2023 at 10:14

Есть несколько SDXL лор, которые улучшают работу с текстом, можно попробовать их добавить, тогда буквы будут консистентнее)

7313 Nov 21 2023 at 11:18

Лоры конечно улучшают работу с текстом, но не решают проблему.. только ControlNet в атоматике или CPDS в фокусе. Вот например (не удержался от картинок в тексте - сори..) эта вышивка сделана в фокусе через подсовывание в image prompt черных букв на белом фоне.

при этом автоматик безбожно жует мелкие буквы вообще в любом вменяемом ControlNet режиме и оставляет их только если загнать силу маски на максимум. Но при этом никаких шансов не остается у самого запроса и у текстуры вышивки нитками. В конфи я тоже долго парился, но не смог. Хотя там наверняка можно это сделать через какую-нибудь монстроидальную систему нод, но я не настолько загоняюсь. В вот в фокусе получилось сравнительно нормально по качеству и сравнительно легко.

timonin Nov 21 2023 at 11:25

Разрешение у мелких букв должно быть хорошее, тогда будет работать, я обычно через инпеинтинг это делаю, чтобы можно было большое разрешение выставлять.

7313 Nov 21 2023 at 11:27

да разрешение нормальное.. Просто текста много и ControlNet этого не любит, а заморачиваться потом по одной буковке править - лень :)

iig Nov 21 2023 at 13:03

Интересная интерпретация цифры 8. И левосторонний автобус.

superconductor Nov 19 2023 at 12:01

Спасибо, интересная штука.
По поводу требований к железу хочу дополнить: на линуксе вполне работает на видеокарте с 4GB видеопамяти, а вот 16GB RAM не хватает, процесс убивается по OOM.

timonin Nov 19 2023 at 12:12

Интересно, ведь модели sdxl весят по 6.5 гигов, а чтобы они работали, они должны полностью помещаться в память, не знал, наверное что-то типа файла подкачки используется, я не очень силен в линукс системах =)

MrFoxez Dec 1 2023 at 07:49

К слову, на гитхабе проекта вообще указано, что минимальные требования по видеопамяти - 4 гига, а системной 8, но при этом должна быть включена Microsoft’s Virtual Swap, которая обычно включена по-умолчанию:

"Note that the minimal requirement is 4GB Nvidia GPU memory (4GB VRAM) and 8GB system memory (8GB RAM). This requires using Microsoft’s Virtual Swap technique, which is automatically enabled by your Windows installation in most cases..."

timonin Dec 1 2023 at 07:50

Правда работать Virtual Swap будет ну очень медленно, но да, даст запустить.

SnakeSolid Nov 19 2023 at 13:43

Скорее всего у вас на видеокарте они в формате f16 лежат и частично скидываются в оперативную память, а на процессоре так считать не получится все нужно держать в памяти в f32. На Stable Diffusion от Automatic1111 для этого есть специальные опции: --no-half, --medvram, --medvram-sdxl, --lowvram, --lowram. У меня 8Гб на видеокарте, иногда при использовании ControlNet приходится этими опциями жонглировать, чтобы памяти хватало.

Larymar Nov 19 2023 at 16:18

при желании на том же automatic все вообще на cpu можно уронить, и в целом даже с этим можно жить.

xenon Nov 19 2023 at 23:17

Небольшой оффтопик, а какую видеокарту сообщество может посоветовать сейчас купить чтоб поиграться с разными нейросетками под Linux'ом? (или где посмотреть это?)

И вообще, то что для игр мне видюха не нужна - открывает какие-то дополнительные возможности (можно купить что-то мощное дешево, то что геймерам не подходит, а для нейросеток очень даже)?

Вот сейчас на озон зашел, от 8 гигов, самые дешевые: RX580, RX 570, GTX 1070, GTX 1070Ti, GTX 1080, RX 5700 XT.

Любая из них пойдет или нужно от конкретного производителя, чтоб были хорошие драйвера под Linux?

timonin Nov 19 2023 at 23:34

Нет такого, что геймерам не подходит, используются те же самые вычислительные ядра, так что самое лучшее что можно купить для нейросеток сейчас это 3090. На 10 серию даже не смотрите как в на 20.

xenon Nov 19 2023 at 23:44

Посмотрел... 24Gb и цена под 100 000. Думаю, нужно уточнить мой вопрос. Меня интересует самое лучшее из самого дешевого. Тратить 100к чтобы просто побаловаться и не извлекать из этого прибыль - я пока не готов.

Gromilo Nov 20 2023 at 05:18

Чтобы дёшево поиграться можно взять видеокарту в облаке.

Сервер обойдётся где-то 50-100р в час в зависимости от видеокарты.

Чтобы не платить по 20к в месяц, после использования сервер нужно гасить. А перед использование создавать. Главное сохранить жёсткий диск. За него придётся платить где-то 100-1000р в месяц в зависимости от размера и типа.

timonin Nov 20 2023 at 09:42

Да, это действительно разумнее всего, есть много вариантов, и васт и ранпод, в рунете и по сложнее и по дороже, иммерсы или селектел.

Kanedias Nov 21 2023 at 07:15

А как за него платить-то теперь?

timonin Nov 21 2023 at 10:15

За кого? Колаб, ранпод, из РФ никак. Селектел, Иммерсы, российские хостеры.

jryj Nov 23 2023 at 16:13

Желательно, что бы ВК была от Нвидеа и от 30 серии. От 8гб. Лучше 12+. ОЗУ - на 16 был опыт - очень тяжко, вываливается в ООМ постоянно. С 32 разница на лицо.

Можно и с карточками от АТИ или Интел, но тут, как это зачастую говорится в инструкциях - ни каких гарантий. И с обновлением может отвалится. Плюс, все плюшки сначала работают на карточках Нвидии, а уже потом их адаптируют на другие.

xenon Nov 23 2023 at 16:37

Спасибо. Но не очень понял. Вы советуете 12+ ОЗУ видеокарты? А на 16 гигах (в видеокарте) было очень тяжело, то есть, на 12 будет еще тяжелее?

jryj Nov 24 2023 at 11:59

На домашнем ПК сейчас 8 и это минимум для сносной работы, особенно для SDXL. А если захочется чего-то больше: controlnet, animediff и т.п., то часто будет оом по видео-памяти.

Для более-менее комфортной 12 и больше конечно лучше.

shaytan Dec 15 2023 at 10:26

3060 с 12Gb VRAM

UFO landed and left these words here

Dolios Nov 20 2023 at 20:45

для нейросеток сейчас это 3090

Пишут, что для игр 4070 Ti лучше и она даже дешевле 3090. А почему для нейросеток она хуже?

timonin Nov 20 2023 at 21:33

Потому что видеопамяти для нейросети чем больше - тем лучше.

vikarti Nov 20 2023 at 02:43

Возможно - б/у tesla P40 с колхозным питанием и с 24 Gb и БЕЗ разъема для монитора? Будут сложности с драйверами

С производителем - почти весь софт - под CUDA, иногда есть порты под AMD ROCm и CUDA но обычно хуже производительность (ну и вероятно тот ROCm будете сами собирать под свое ядро и дистрибутив, но).

Памяти желательно хотя бы 12 Gb, лучше - 16 Gb. Объем видеопамяти важнее ядер в том плане что модель может просто не лезть (но как я понимаю - актуальнее скорее для текстовых сеток а не графических, но для текстовых сеток есть llama.cpp который умеет обрабатывать модели которые частично в видеопамяти)

Если побаловаться по минимуму то на мой взгляд стоит посмотреть на:

RTX 3060 12 Gb за ~30k б/у
Tesla P20 24 Gb за ~20 k б/у
тупо использовать CPU - софт вполне себе будет работать, ну да - все будет тормозить и сильно. Если конечно модель в память влезает

Ну и почитать https://new.reddit.com/r/LocalLLaMA/ на предмет что люди пишут (там правда упор скорее на текстовые модели - очень очень грубо и упрощенно - opensource версия ChatGPT, но для сравнительных целей может и хватить)

timonin Nov 20 2023 at 09:43

Да меньше 12 сейчас брать точно не стоит, еще пол года назад достаточно было 8 =)

nidalee Nov 20 2023 at 08:18

3060 на 12 гигабайт VRAM.

xenon Nov 20 2023 at 10:48

Спасибо. Любая 3060 подойдет (вот вижу, например, от MSI) или есть какие-то важные отличия, например, в наличии каких-то особых правильных драйверов для Linux?
LHR версии, которые не подходят для майнинга, подходят для нейросетей или в них тоже лучше переплатить на "честную" видюху без LHR?

nidalee Nov 20 2023 at 10:50

Любая, главное чтобы 3060 (не ti) и на 12 гигабайт, а не на 8.

Драйвера поставляются NVIDIA, они одинаковые для всех вендоров.

xenon Nov 20 2023 at 10:52

Спасибо. Вы супер-быстро ответили, я там дописал про LHR еще уточнение, не уверен, ваше "любая" относится и к нему тоже, или вы ответили раньше, чем я дописал. В общем, LHR стоит брать или нет?

nidalee Nov 20 2023 at 10:53

LHR режет определенные алгоритмы, которые к нейронкам отношения иметь не должны. НО я не проверял и не гуглил. Проверьте :)

UP: погуглил, не влияет.

timonin Nov 20 2023 at 10:53

LHR не влияет никак. А вот с драйверами придется поковыряться потому что под линукс нет официальных драйверов на масс маркет карты. Есть порты от сообщества разной степени проблемности.

nidalee Nov 20 2023 at 11:01

А вот с драйверами придется поковыряться потому что под линукс нет официальных драйверов на масс маркет карты

Это, конечно, не так:

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb

sudo apt-get install --verbose-versions nvidia-kernel-open-XXX
sudo apt-get install --verbose-versions cuda-drivers-XXX

Ubuntu + 3060

timonin Nov 20 2023 at 11:03

Так они ж не официальные вроде?) Проприетарные драйвера есть под винду. А под линухи есть только на серверные линейки, если не ошибаюсь.

nidalee Nov 20 2023 at 11:04

А, "официальные" это "открытые"? Тогда нет, конечно.

Но официальные от NVIDIA вполне себе есть.

timonin Nov 20 2023 at 11:14

Тут спич про то, что NVidia не хотела бы, чтобы карты для игр использовались в серверных решениях, к которым относят обычно линукс системы. Потому никак не развивает это направление, мол для линукса есть серверные решения в 3 раза дороже. Мы просто пытались некоторое время использовать масс маркет решения, есть минусы, есть сложности по сравнению с теми же A сериями.

nidalee Nov 20 2023 at 11:18

Под Linux со стороны NVIDIA нет никаких ограничений, релевантных для генерации изображений или LLM.

Серверному сегменту ничего не угрожает из-за консьюмерских карт. Они ограничены пулом VRAM, физическими размерами, линиями PCI-E на консьюмерском железе. В какой-то момент еще отсутствием интерконнекта. Но со стороны софта там просто не нужны дополнительные костыли.

Единственное реальное ограничение, об которое можно споткнуться, это ограничение на количество потоков NVENC\NVDEC. Но оно к нейронкам не имеет никакого отношения от слова совсем.

K0styan Nov 20 2023 at 16:31

А чем ti не годится? Просто переплата за ненужное или там есть что-то, что именно мешает?

timonin Nov 20 2023 at 16:33

В ней просто меньше памяти, в 3060ti 8гб, а в обычной 12 гб. А память в нейронках важнее герцовки.

SergeyMax Nov 19 2023 at 17:17

А эта нейросеть может нарисовать не Джокера, а что-то простое, например красный круг на белом фоне?

timonin Nov 19 2023 at 17:24

Может, но попытается сделать его более художественным, потому что обучалась она для того чтобы рисовать не простые круги, а что-то сложное и красивое. Хотя сейчас можно найти модель под любую задачу, да и самому обучить можно.

MAXH0 Nov 19 2023 at 18:25

Вот интересный вопрос... Если я решу обучать что-то свое. Например систему генерирующую простой клип-арт рисунок по описанию. Скрепочку там или человечка. То сколько ресурсов мне потребуется тогда и возможно ли создание отдельных тем для Вашей системы?

timonin Nov 19 2023 at 19:51

Ресурсов уже не так много, 8-12гб видеопамяти сейчас уже достаточно для обучение лоры. Но процесс этот не быстрый в плане подготовки и требует глубокого понимания вопроса и грамотной подготовки дата сета.

nidalee Nov 20 2023 at 08:19

LORA тренируется примерно час, Dreambooth часов 8. Большую часть времени будете составлять и тегать датасет, на самом деле.

jryj Nov 24 2023 at 13:11

Легко. Промт ровно такой, как написано, только на англ. Без дополнительных лор или специальных моделей.

SergeyMax Nov 25 2023 at 19:28

А если фон нужен не серый, а белый?

timonin Nov 26 2023 at 12:01

А зачем микроскопом гвозди забивать? Ничего не мешает взять образец цвета, и использовать его в генерации.

SergeyMax Nov 26 2023 at 12:40

Ммм, "это не нужно", знакомый аргумент)

timonin Nov 26 2023 at 12:48

Я не сказал что это не нужно, я сказал что для всего есть свой подходящий инструмент. Дальше вы наверное думали спросить про еще один цвет и про другую геометрическую фигуру, и да их тоже можно. Но зачем, если круг в ФШ делается за пол секунды, а затем используется в генерации как Input Image.

SergeyMax Nov 26 2023 at 20:40

А зачем его использовать в генерации, если уже в фотошопе всё нарисовано?

jryj Nov 27 2023 at 01:02

К примеру, что бы потом нарисовать уже в том же фокусе, использую нужный нам круг их ФШ, огенный круг, через которой будет кто-то прыгать.

Но в целом, использовать SD для рисования геометрических фигур, это мягко говоря странно.

SergeyMax Nov 27 2023 at 03:12

Я понимаю, что концепция размера зебр оказалась довольно сложной для понимания нейросетью, возможно, есть какие-то более простые задачи, решаемые нормально?

jryj Nov 28 2023 at 17:56

То, что вы хотите нарисовать - не проблема. Для этого есть спец. средства в виде controlnet и inpaint.

А так - можно рисовать, что душе будет угодно. Например логотипы или стилизовать надписи и много чего ещё.

DaneSoul Nov 19 2023 at 19:42

Какое время занимает генерация одного изображения на домашней машине?
Хотя бы примерный порядок: секунды, минуты, часы?

timonin Nov 19 2023 at 19:52

Домашние машины у всех разные, у меня RTX 4090 и создание изображения занимает несколько секунд, на 1060 sdxl модели не запустятся в принципе например, а на 3060 скорость может быть пару минут.

Karpov_Stas Nov 20 2023 at 09:44

Ну не знаю, вчера нашёл твой видос где ты как раз об этом фокусе рассказывал. Решил попробовать на своём ноуте. У меня 1060m ( не qm ) на 6 гиг видео. В стоке, первый раз создание заняло 11 минут, ну это и понятно, как ты в видосе говорил в первый раз так будет всегда долго. То есть всё работает даже без той облегчённой темы которую ты показывал в конце видео, видеопамяти сожрало 4.8 гиг из 6, оперативы с 16 гиг сама консоль жрала 7.9. Я считаю это нормальным и всё запуститься даже на этой. Хотя, учитывая что этот старик оказывается лучше компьютерной 1650 в играх, то я даже не удивлён что и тут всё в норме. Повторюсь, всё в стоке, как скачал, ничего не настраивал, запустил и закинул простой промт из твоего видео ( с пингвином у иглу ), дрова на видяху последние доступные которые от начала ноября этого года.

Noizefan Nov 19 2023 at 19:53

У всех домашние машины разные. В колабе минуты, 2-3 если всё по дефолту оставить

MonkAlex Nov 19 2023 at 20:16

У меня 2060 с 6гб памяти, где то по минуте уходит на картинку.

SquareRootOfZero Nov 20 2023 at 02:50

Аналогично, минута плюс ещё секунд пять-десять.

MonkAlex Nov 20 2023 at 09:47

На самом деле, потыкал разные модельки с разными плюшками - время может быть абсолютно любым.

Можно оставить только модельку и в 20 проходов рисовать 512х512, тогда у меня уходит секунд 30.

А можно сделать 60 проходов, добавить вторую модель для улучшения, разрешение поднять до 768 и hi-rez подключить - тогда минуты 4.

MonkAlex Nov 20 2023 at 14:07

Потестил решение из поста, потестил отдельно автомат1111, потестил разные модельки в них.

Всё очень грустно, я бы сказал. Взять и просто "получить хороший результат" - почти невозможно. Везде огрехи, модельки игнорируют промпты, требуется много работы напильником, чтобы что-то сносное получить.

Обидно, думалось что можно получить нужные картинки без плотного погружения.

Ravius Nov 20 2023 at 23:21

Если хотите создать сложную композицию - придётся изучать инструмент/синтаксис, подсказывая сети в какой момент делать мутации.

Выше писали пол 512х512 - если это было SDXL, поздравляю вы нашли слона. Модель не умеет в меньше 1024х1024.

Если это была SD1.5 - нужно делать hires fix = 0.3 с апскейлером r-esrgan.

В общем - зависит от "тестов". - автор приложил картинки, вполне себе качественные, если вы не смогли повторить - проблема у вас.

А сложная композиция - это к dalle3 в которую вшит LLM.

MonkAlex Nov 20 2023 at 23:35

512х512 было на 1.5 уже. И дело не в хайрезе, дело в композиции того, что рисует модель.

У автора тоже видны проблемы с пальцами, с фонами на части картинок.

Сгенерить "что-то" по запросу - можно. Чуть-чуть поправить или попросить сделать чуть-чуть иначе -- сложно. Если я хочу например нарисовать комикс или визуальную новелку - то просто взять как "готовый инструмент" не получится. Именно что нужно лезть в кишочки, жаль.

timonin Nov 20 2023 at 23:39

Конечно, если ваша задача выходит за пределы создания просто красивой картинки, то и скиллы у вас должны быть соответствующий. Для серьезных робот нужно несколько слоев контролнета, глубокое понимание арт директинга и А1111. Согласитесь было бы удивительно, если бы у вас сразу получилось создавать коммерческий арт с первого подхода. Вот пример того, что можно делать - https://www.reddit.com/r/StableDiffusion/comments/13s8da5/use_sd_for_the_novel_illustration_part6/

MonkAlex Nov 20 2023 at 23:44

Да, я как раз с момента выхода статьи потестил решение, потестил а1111, почитал пару десятков статьей\форумов\роликов. И понял, что оно неплохо для каких-то случайных картинок, а дальше мне лично проще забить =)

Надо "специализацию" по факту получать в инструментарии, чтобы результат был неплох, а лучше ещё и фотошоп какой-нибудь освоить, чтобы результат был хорош. По факту, я вижу что рутину художник в теории способен скинуть на нейросеточку на основе SD, а остальным оно только баловаться.

timonin Nov 21 2023 at 00:12

Не только для художников нейросеть благо. Для любого контент мейкера без нейронок уже никак, картинку для поста или обложки зачастую проще сгенерировать чем найти в гугле.

А в современном мире без генерации контента уже никуда, мемчик для друзей сделать, аватарку для рабочего чата и вот тут как раз на помощь приходят простые решения, как фокус)

nebularia Nov 21 2023 at 15:14

Вот только с Midjourney добиться приличного результата по сложному запросу намного проще (хотя часто тоже надо посидеть, но без особой чёрной магии). Собственно почему его и используют и сравнение в заголовке не очень корректно.

Salavat Nov 20 2023 at 07:16

1050ti + 32ГБ оперативки (съедает во время генерации 26ГБ) первая картинка за минут 5 генерируется у меня.

Haoose Nov 20 2023 at 08:43

Вот бенчмарк различных моделей видеокарт, где указано сколько картинок в минуту они способны выдать.
Stable Diffusion Benchmarks: 45 Nvidia, AMD, and Intel GPUs Compared | Tom's Hardware (tomshardware.com)

ReinRaus Nov 20 2023 at 18:53

У меня RTX 4050 Laptop (6 Gb VRAM, 12 Gb RAM), плюс включена в винде виртуальная память на SSD диск (без этого генерация Fooocus бы не сможет запуститься).

Первая генерация по промпту: 425 секунд.

Повторная генерация по тому же промпту: 320 секунд.

UFO landed and left these words here

DaneSoul Nov 19 2023 at 19:47

И касательно seed вопросы.
По одному и тому же seed всегда генерируется одинаковое изображение или примерно похожее?
Есть вариант вначале запросами создать "общую картинку" без деталей, а потом используя ее seed уже генерировать вариации с доп. деталями?

timonin Nov 19 2023 at 19:55

Seed это просто ид шума, из одной и той же карты шума можно получить и автомобиль и закат и девушку, но при том же самом промпте вы будете получать тот же самый результат. Если изменения промпта небольшие то и композиция не изменится. Шум всегда первичен, поэтому создать что-то и использовать Seed от этого не получится. Соседние сиды тоже не всегда создают похожие композиции.

Aniro Nov 20 2023 at 15:34

Да, можно сделать общую картинку без деталей, и использовать как стартовую, сказав модели что она уже часть работы сделала, пусть дальше дорабатывает. В зависимости от шага с которого начнется генерация будут разные результаты. Если допустим пропустить 10 шагов из 30 - исходное изображение задаст только общую композицию и цвета. Если пропустить 20 из 30 - изменятся только мелкие детали и стиль.

Получающееся изображение определяется в основном промтом и сидом (при остальных одинаковых параметрах). Если все параметры генерации идентичны - изображение будет почти идентичным (должно быть совсем идентичным, но некоторые сэмплеры похоже выдают недетерминированный результат). Причем чем более общий промт, тем больше влияет сид. При очень конкретном промте сид скорее всего будет влиять только на композицию.

NeoCode Nov 19 2023 at 20:17

Спасибо огромное, наконец-то лично попробовал что это такое - AI генерация изображений))

AlexanderS Nov 19 2023 at 20:52

В процессе установки выкачиваются модели juggernautXL_version6Rundiffusion.safetensors, realisticStockPhoto_v10.safetensors, bluePencilXL_v050.safetensors.

В чём будет разница, если я эти модели просто запущу на stable-diffusion-webui?

timonin Nov 19 2023 at 21:25

В качестве изображений, у фокуса много своих твиков и наворотов, которые конечно можно получить и в автоматике, но сделать это будет сложнее и вручную. Полный список того, что создатель контролнета придумал на странице проекта на гите, в самом низу.

UFO landed and left these words here

riky Dec 18 2023 at 13:34

главная фишка фокуса в том что он первым делом переписывает prompt (может быть с помощью gpt?) и для генерации идет уже сильно расширенный запрос. в консоли выводится полный запрос.

timonin Dec 18 2023 at 14:30

Ну не главная, а одни из, и да, с помощью гпт. Полный запрос еще и в хистори логи выводится и где-то я уже писал что стиль Fooocus v2 за это отвечает.

newyorkin Nov 19 2023 at 23:04

Что-то можно сделать с пальцами, может какая-то negate строка? Даже ведь на картинках в статье у Харли Квин какие-то невнятки с пальцами.

Moog_Prodigy Nov 20 2023 at 01:49

Где-то читал, что для нормальной отрисовки пальцев существует лора специальная, правда для автоматика. Надо поискать.

timonin Nov 20 2023 at 09:46

Есть и лоры и негативные эмбединги, но они не решают проблему полностью, лишь немного улучшают ситуацию. Тут проблема в том, что никто еще серьезно не занялся этим вопросом и не собрал открытый дата сет с правильными руками в большом количестве. Как только появится быстро решат проблему сразу повсеместно.

MonkAlex Nov 20 2023 at 09:48

Я подключил парочку. Стало лучше, но всё равно не идеально.

Как совет видел ещё подключение ControlNet, который требует каждый палец отдельно и тогда лишних тоже не будет. Пока не проверил.

0x1A4 Nov 20 2023 at 09:40

Проблемы с отрисовкой пальцев и лиц характерны в основном для старых моделей. В Stable Diffusion 2.0 с этим лучше. А еще есть специально обученные компоненты - VAE модели. Это не полноценные модели для генерации, они подключаются к основной модели и работают вместе с ней. Есть такие, которые реконструируют пальцы и лица.

Aniro Nov 20 2023 at 15:45

Базовая модель традиционно плохо умеет руки. У тех, что файнтюнились исключительно на изображениях людей с этим значительно лучше. Вот эта говорят ничего, но это неточно: https://civitai.com/models/43977?modelVersionId=227916

Andrey_Epifantsev Nov 20 2023 at 00:18

А в чём ключевые преимущества Fooocus перед Automatic 1111? Почему и в каких ситуациях стоит использовать именно Fooocus, а не популярный и имеющий огромное количество расширений, уроков и статей о нём Automatic 1111?

timonin Nov 20 2023 at 00:26

Преимущество в том, что все из коробки работает, сразу, сделать что-то неправильно очень сложно. Это же и недостатки, но как первая генеративная нейросеть или как простой интерфейс, чтобы сделать хорошо без танцев с бубном - фокус идеален. Вот когда его станет мало понадобится A1111.

7313 Nov 20 2023 at 12:12

Преимущества есть.

На пока только Фокус умеет нормально использовать 1.5 модели в качестве рефайна XL модели. Даже в конфи на данный момент это получается похуже. Для примера пара картинок с подобным рефайном вот тут

ну или с логином на цивите https://civitai.com/posts/838369

Иногда получается интересно.

Вторая интересная вещь это собственный фокусный IP адаптер (но это наверное из запланированной второй части статьи) для переноса стилей из входной картинки. Для XL и в автоматике и в конфи это пока работает похуже, а модельку от фокуса пока не получается к ним прикрутить.

Ну и третье очевидное преимущество - изобилие встроенных стилей. Хотя их все можно найти в виде .csv для автоматика, но в нем они работают не совсем так.

Ну и не забываем что были несколько форков фокуса, которые умели, например, вшивать полные метаданные в png или брать полный воркфлоу из поля ввода или картинки, выставлять собственное разрешение, регулировать число шагов и параметры семплеров и еще много чего. Но все они на данный момент сильно отстают от версий самого фокуса.

timonin Nov 20 2023 at 12:16

В точку, потому про форки не рассказываю, они как внезапно появляются, так же внезапно их и забрасывают.

Со всем согласен, еще добавлю про SDXL ControlNet Inpainting модель, которой тоже нету вне фокуса до сих пор, ну вернее есть, на диффузерах, но работает хуже чем там что в фокусе и как портировать её в автоматик пока не очень понятно, автор приберёг для своего проекта.

Ogoun Nov 20 2023 at 15:30

Пользуюсь automatic1111, InvokeAI, и вот теперь этим. В дополнение к отвеченному, в автоматике нет нормального удобного outpainting'a, для него использовал InvokeAI. Ну и для разных задач можно использовать разные инструменты, сейчас для быстрой генерации я запущу фокус, понравилось качество. Для постобработки автоматик. Для более качественной генерации в outpainting режиме - InvokeAI

Zangasta Nov 20 2023 at 06:45

А что у нас с цензурой? Может ли данная сеть нарисовать, скажем, нудистский пляж?

timonin Nov 20 2023 at 09:47

В самом софт никакой цензуры нет. Так что он может создавать все, чему обучалась модель. А узкоспециализированные модели под NSFW существуют в широком ассортименте.

7313 Nov 20 2023 at 12:33

В широком вряд ли.. Заявляют да - многие, но лучше встроенного джагнаута под реализм и NSFW работает по-моему ровно 1 модель (и то не во всех случаях), но я не знаю можно ли такие ссылки тут давать :) Все остальное на цивите это просто ужас-ужас (это я обоснованно говорю на основе очень длинных гридов). Так что в 1.5 NSFW намного приличнее пока.

PS И да - я не просто пробовал, но и тщательно присматривался ко всем XL моделям с цивита :)

funca Nov 20 2023 at 10:00

Может нарисовать пляж когда все нудисты только разошлись.

vikarti Nov 20 2023 at 10:32

Попробуйте :). Мне по запросу nude beach выдало 2 картинки которые запросу на мой взгляд - отвечают. И люди там есть. Без одежды конечно же.

timonin Nov 20 2023 at 10:39

А если еще и специализированную NSFW модель скачать, там такое начинается...

DonStron Nov 20 2023 at 06:47

А дайте, пожалуйста, совет по комплектухе для нейросетей (исключительно нейронки, игры не интересуют вообще). Например если брать б/у RTX 3090 и собирать новый комп вокруг неё.
Насколько сильно влияет процессор во время обучения? Понимаю, что для подготовки данных - влияет. Но вопрос исключительно про процесс обучения. Допустим данные уже полностью готовы, на лету генерировать не будем. Берём готовые и выдаём батчами. Какого процессора будет достаточно для полной нагрузки видюхи 3090, чтобы процессор не был узким горлышком?
Понятно, что лучше i7-13700K, но он горячий и к нему желательно подороже мать (чтобы питание хорошее было) и охлаждение (топовые кулеры или водянку). А вот какой-нибудь холодный i5-13400 не требователен особо к питанию на материнке и уж точно достаточно будет нормального воздушного охлаждения. Сможет i5-13400 успевать нагружать работой видюху в процессе обучения?

nidalee Nov 20 2023 at 08:26

Насколько сильно влияет процессор во время обучения?

Никак не влияет практически, датасеты\бакеты в начале процесса сгружаются в RAM\VRAM, как я понял. Поэтому только непосредственно старт процесса обучения как-то зависит от мощности процессора, но это все равно погрешность.

Какого процессора будет достаточно для полной нагрузки видюхи 3090, чтобы процессор не был узким горлышком?

Процессор и так им не будет. Потому что batch size при обучении крутится в ущерб качеству получающейся модели, а чтобы компенсировать потерю качества - процесс обучения (learning rate) замедляют специально.

Единственный сценарий, когда CPU может вам что-то замедлить - это если вы одновременно обучаете несколько моделей, которые каким-то образом влезли вам в VRAM (больше 2-3 моделей одновременно это уже несколько 24-гиговых видеокарт), и даже тогда вы скорее в PCI-E линии упретесь, чем в мощность процессора как такового.

Условно, если вам только под нейронки - берите комплект зиона с алиэкспресс, их на развес продают в 2023. Если жировать, то можно посмотреть EPYC.

timonin Nov 20 2023 at 09:51

На самом деле CPU бывает узким местом, но это больше касается генерации чем обучения, перехеширование моделей, узким местом может быть и память, если тайминги у планов не совпадают, то все будет работать медленнее, встречал такие конфигурации. Но во всех были не корректно подобраны комплектующие. Если в двух словах, то просто нужна актуальная видеокарта на 12-24гб видеопамяти и актуальные для этой видеокарты камень, материнская плата и память, тогда никаких узких мест не будет.

nidalee Nov 20 2023 at 09:52

На самом деле CPU бывает узким местом, но это больше касается генерации чем обучения

Бывает. Но:

Но вопрос исключительно про процесс обучения.

‎-

перехеширование моделей

Это достаточно странное занятие.

vs39 Nov 20 2023 at 06:56

А зачем в тайтле упоминание Midjourney? При всем желании никакой SD ее не заменяет. Скормите самый простой промпт в mj и в sd и вы удивитесь как облажается sd. Ну т.е. это вообще другое

Gromilo Nov 20 2023 at 07:56

Если я правильно понял позиционирование фокуса, он как раз таки должен выдавать картинку на уровне mj по простым промтам.

timonin Nov 20 2023 at 10:01

А вы попробуйте фокус, и приятно удивитесь. У меня есть собственный миджорни бот и собственный сервис по генерации на SD, скажу так - миджорни - айфон, который на автомате делает лучше среднего. А SD это камера блэк мэджик, она может сделать то же что и айфон, но не на автомате, а в ручную. Но айфон никогда не сделает того же, что может блэк мэджик.

Заранее прошу прощения если задел чьи-то чувства неуместными или громоздкими метафорами =)

vikarti Nov 20 2023 at 10:34

Как я понимаю - упор именно в "у нас также просто как Midjorney и не надо танцы с бубном..но можно и потанцевать если хотите"

timonin Nov 20 2023 at 10:41

Именно, автор конкретно перечисляет, что именно они сделали, на странице проекте. Чтобы как в миджорни, все убрано под капот и выставлено заранее, используются лучшие практики и модели, все что надо - написать запрос и получить хорошее изображение.

riky Dec 18 2023 at 13:43

под капотом тот запрос что вы ему дадите он доработает чтобы результат был как в MJ. в консоли полные запросы выводятся

pomflower Nov 20 2023 at 06:56

Автор, спасибо за статью!

Можно ли пользоваться Фокусом для генерации картинок с целью их продаж на стоках? Есть ли коммерческая лицензия?

timonin Nov 20 2023 at 10:03

Лицензия зависит не от ПО на котором запускаете, а от модели которую запускаете, читайте описание моделей на civitai, в некоторых прямо запрещено коммерческое использование, но большинство моделей разрешают любое использование. Ну и некоторые стоки явно запрещают загружать ИИ контент, насколько я слышал.

DonStron Nov 20 2023 at 07:12

Вопрос про достаточное количество видеопамяти.

Недавно NVIDIA представила в новых драйверах функцию System Memory Fallback. Если я правильно понимаю, позволяет использовать основную память компа. То есть не обязательно гнаться за видюхами, где много памяти, теперь можно брать условные 6 гигов и расширять за счёт системной памяти. Верно? Кто-то пробовал? Можно как-то сравнить насколько падает производительность при использовании добавки из системной памяти?

Например можно взять RTX 3090 c 24 ГБ, а можно взять 4070 Ti с 12 Гб и использовать системную память для моделей, которые в 12 Гб не помещаются. Насколько медленнее работать начнет?

iiiytn1k Nov 20 2023 at 08:42

Насколько медленнее работать начнет?

В десятки раз.

timonin Nov 20 2023 at 10:04

Настолько медленно, что это не имеет смысла. Единственное от чего это стало спасать от падений по памяти, если раньше все просто вылетало, то сейчас минут на 5 зависает в пиковой нагрузке =)

magdavius Nov 20 2023 at 10:04

Про запуске всего этого на Apple Silicon (M1, M2) даже задумываться не стоит?)

timonin Nov 20 2023 at 10:05

Поддержка заявлена, но скорость генерации будет грустной, порядка 5-8 минут думаю на изображение. Проще в коллабе.

advan20092 Nov 20 2023 at 17:37

Есть DiffusionBee, там гораздо проще все

timurey Dec 3 2023 at 10:41

Две минуты на модель примерно. m1 pro 32 ram

kukan2 Nov 20 2023 at 17:38

Всё идеально запустилось и заработало

Но!
Поиграв полчасика столкнулся со следующими весьма, на мой взгляд, существенными недостатками:

Полное отсутствие вариативности. Например если играться с вашим промтом с рыжей девицей, модель будет всегда выдавать ОДНО И ТО ЖЕ лицо. Если состарить возраст, появляется немного морщин и ВСЁ. Если написать вместо beautiful, ugly или monstrous, ничего не меняется (что вообще очень странно). Если заменить рыжую на брюнетку, то лицо будет другое, но опять одинаковое для каждой генерации. То же самое с фонами, они всегда почти идентичные. Такое чувство что модель обучали по нескольким фотосетам, с ограниченным количеством людей.
2. Негативный промпт вообще не работает, полный игнор любых запросов

timonin Nov 20 2023 at 17:40

Вы получили результат, а дальше уже учитесь писать запросы, промпт инжиниринг не просто так превратился в отдельную профессию. Чем подробнее, качественнее и осмысленнее вы опишите то, что хотите, тем более точный и уникальный результат получите. По моим запросам - примерам получается хороший результат, потому что они максимально обобщены, а вам же уже хочется конкретики. Но запрашивая просто девушку, вы будете получать просто усредненную девушку.

kukan2 Nov 20 2023 at 18:52

Вы думаете это первая генеративная нейросеть которую я тестирую? Результат, да , есть, и он относительно не плох, но сравниваю я его не со своими ожиданиями, а с другими сетками и он разочаровывает. Вы не очень понимаете о чем я, вы получаете не просто усредненную женщину, а буквально ТУ ЖЕ самую, просто с небольшими вариациями, чем другие нейромодели не страдают.

Я уж не говорю, что создание чего-то реально нетипового ей дается вообще с натужным трудом.

Попробуйте создать в этом Фоокусе, например, Циклопа, эта задача ему вообще не под силу, ну либо, как вы говорите, я совсем даун в составлении промтов.

Да и в целом уровень генерации это скорее паст ген, хотя это уже неплохо, учитывая скромные физические размеры скачиваемых моделей и шустрость локальной работы.

timonin Nov 20 2023 at 19:10

Вы смешиваете понятие модель и ПО которое её запускает. Если вам не понравилась модель, вы всегда можете её поменять, на цивите тысячи моделей на любой вкус и цвет.

Как я уже сказал, создать можно все что угодно, вы пишите простые промпты, получаете простые типовые результаты, это не вина ни фокуса ни моделей, просто вы еще не умете писать запросы так, чтобы получать что-то уникальное, и это нормально.

А еще скорее всего не отключили стиль Фокус в2, GPT движок, который меняет ваш промпт автоматически и он наверняка постоянно добавляет одни и те же типовые токены, которые делают красиво на автомате и не всегда так, как вы имели ввиду.

jryj Nov 24 2023 at 14:24

Промт был самый простой cyclop. Сделано в фокусе.

Dmitry2019 Nov 20 2023 at 18:26

Может где-то и есть руководство, но вменяемого я не нашёл. Как заточить такой сервис на облаке и дать возможность тысячам пользователей параллельно генерить картинки используя различные модели или LoRa. И желательно платить только за время, пока генерация картинок идёт. Если кто знает, пожалуйста напишите в комментариях или в личку. Спасибо

timonin Nov 20 2023 at 18:45

Я создал такой сервис, https://artgeneration.me/ пост о нем разместить не могу, модератор сказал сначала 30 кармы надо =)

Задача это весьма не простая, мы на разработку решения превращавшего обычный SD в коммерческое апи и в дальнейшем в веб сервис потратили год, и то многое еще не доделано.

Dmitry2019 Nov 20 2023 at 18:54

Было бы очень интересно понять, как такое сделать

timonin Nov 20 2023 at 19:15

Ознакомиться с исходными кодами SD, понять как адаптировать их под высоконагруженный веб сервис, выбрать базу и основной стэк, сервис очередей, спроектировать и написать бэкенд и конечно фронтэнд, собрать все вместе. Это если коротко.

Dmitry2019 Nov 20 2023 at 19:44

Всё это уже есть. Вопрос в том, как создать и держатьна облаке предзагруженные модели и не платить за десятки машин, которые нужно поддерживать

timonin Nov 20 2023 at 19:56

Ответ жесток как сама реальность - никак. Потому лучшее что можно сделать это утилизировать ресурсы тех машин что используются на 99.9%. Мы для этого кроме своих коммерческих сервисов подняли еще и корпоративную апишку для бизнеса и приложений, подключаем нуждающихся, оптимизируем ресурсы.

Sap_ru Nov 20 2023 at 23:51

Что же вы за мамкины маркетологи... Как у вас на сайте цены и условия без регистрации узнать?

extremegym Nov 20 2023 at 18:56

А почему не рассмотрен вариант с Input Image?

timonin Nov 20 2023 at 19:12

На это я ответил в статье, судя по тому, что вы не дочитали до этого места, статья и так слишком длинная =)

hphphp Nov 20 2023 at 20:54

Большое спасибо за статью. Обязательно пишите продолжение

HepoH Nov 20 2023 at 21:23

Спасибо за статью, поиграться вечером было интересно!
А может кто подсказать, могу ли я использовать вот эту модель и если да, то как? Вижу во вкладке файлов два ckpt-файла по 2Гб, видимо это оно. В фокусе на вкладке model можно выбирать какие-то модели, там только sd_xl_offset_example-lora_1.0.safetensors есть по дефолту, расширения какие-то разные будто бы.

timonin Nov 20 2023 at 21:30

Только в качестве рефайнера, поиграйтесь еще с фокусом и переходите на автоматик, вот там будет уже возможно все =)

7313 Nov 21 2023 at 05:47

Ну или найти старую версию фокуса, которая еще понимала SD модели в качестве основных :)

nidalee Nov 22 2023 at 03:29

То есть такая фича была и они ее сломали? Зачем??

timonin Nov 22 2023 at 07:46

Не сломали, а отказались в пользу SDXL моделей, потому что они выдают результат лучше, цель автора сделать альтернативу миджорни. На 1.5 это невозможно по многим причинам.

nidalee Nov 22 2023 at 07:50

потому что они выдают результат лучше

Откровенно говоря, мимикрировать под простоту миджорни - это единственное, что sdxl умеет лучше.

Но я полагаю, что "у нас миджорни дома" и было конечной целью проекта, тогда да... Хотя не вижу причин, по которым софтина должна отказываться от 1.5 моделей, если ей их скармливают.

timonin Nov 22 2023 at 08:36

Для этого любую модель 1.5 можно включить в качестве рефайнера и получить её уникальный стиль, не прописывая два десятка мусорных токенов.

nidalee Nov 22 2023 at 08:46

Что есть "мусорные токены"?

timonin Nov 22 2023 at 08:55

Masterpiece, artstation и прочие "улучшайзеры", которых по сути быть не должно, но они есть. Их влияние в SDXL моделях сильно меньше, в результате использовать их нет нужды. Как и должно быть в естественном языке.

nidalee Nov 22 2023 at 12:02

Вот уже год генерирую на SD 1.X и ни разу не приходилось ими пользоваться. Я, впрочем, генерирую digital art.

timonin Nov 22 2023 at 12:38

Значит вы используете какие-то другие, это лишь примеры. У каждой модели будет свой излюбленный набор стилизаций. Это легко увидеть открыв любую 1.5 модель и посмотрев какие одни и те же наборы токенов использует автор и сообщество. Они обычно и отвечают за стилизацию.

amberovsky Nov 20 2023 at 21:28

Относительно запуска в колабе - это действительно возможно?

timonin Nov 20 2023 at 21:32

В теории - все возможно, но конкретно этот блокнот ничего не устанавливает на ваш гугл диск и соответственно доступ к нему даже не запрашивает. Но бывают и другие, которые разворачиваются непосредственно на вашем гугл диске и они без доступа к нему просто не смогут работать. Хорошо что исходный код блокнтов виден и если бы они что-то такое делали, сообщество бы об этом знало.

justified Nov 21 2023 at 22:43

Попытался запустить на ноутбуке с двумя видеокартами. Похоже, пытается генерить на встроенной, игнорируя Nvidia. Как бы это исправить?

Ferrite Nov 27 2023 at 05:36

Наверно у меня таже проблема. На месте картинки error, больше ничего нет. И ещё у меня ноут Lenovo Legion 5, с мобильной RTX3060 (6гб видеопамяти), ryzen 5600H со встроенной графикой и 16гб озу, с виндой. На нём можно это запустить? Что делать?

RichardMerlock Nov 29 2023 at 11:21

По ходу ОЗУ надо увеличивать. У меня примерно похожий вариант, HP Omen с 3060, но ОЗУ прокачано до 64. В пике питоновский процесс коммитит 24 гига памяти.

timonin Nov 29 2023 at 17:28

Питон сожрет все, что найдет. Будет 64 гига, и от 64 сожрет почти все =)

RichardMerlock Nov 29 2023 at 22:35

В моём случае была зафиксирована точка насыщения - питон наелся.

200sx_Pilot Dec 2 2023 at 10:18

Не наелся, а просто задремал в процессе.

Проснётся - доест.

Ferrite Jan 9 2024 at 09:46

Обалдеть!.. Может можно файл подкачки сделать, например на внешем жёстком диске (чтобы ресурс ssd не тратить)?

timonin Jan 9 2024 at 10:28

Можно, но работать будет так медленно, что зависнет вся система, потому файл подкачки стоит размещать на самом быстром носителе.

DenisTrunin Nov 22 2023 at 06:30

Поиграться нормально. но сама модель довольно старая, не понимает текст, не может работать с кол-вом предметов(задал к примеру draw me 2 zebras and a lion - выдала только зебр). К примеру Dalle3 (который встроен в чатжпт) это все корректно обрабатывает. на 4060Ti 8GB работает шустро. А можно ли для этого скачать другие модели - интересует более корректная работа с текстом для логотипов к примеру?

timonin Nov 22 2023 at 07:48

Модель не старая, модель просто не дали, что имеет как плюсы так и минусы. Модель вы можете скачать любую с https://civitai.com/ но текст на всех стабильных дифузиях работает плохо, для этого есть контролнет.

DenisTrunin Nov 22 2023 at 09:03

Спасибо за ответ. а что такое контролнет? еще на этом сайте конечно много моделей, т.е. это прям нужно реально погрузиться, чтобы знать какая модель что может

timonin Nov 22 2023 at 09:15

ControlNet это подсистема которая задает рамки для генерации, например можно сделать карту глубины по начертанию логотипа и тогда его получится сгенерировать. А модели просто отсортируйте по рейтингу, самые интересные будут сверху.

jryj Nov 24 2023 at 15:36

Не сразу, но получилось. ПРомт ровно такой, как у вас.

Но должен заметить, что большинство картинок было или с зебрами или с львами.

Преимущества SD в том, что оно работает на домашнем компьютере и в гибкости. Зебру и 2 львов можно нарисовать с помощью inpaint и controlnet.

DenisTrunin Nov 25 2023 at 07:32

Ну косяков довольно много - непонятно что с ногами у львов, плюс это не 2 зебры. Вот что выдает чатжпт по запросу " draw me 2 zebras and a lion". Все же это следующий уровень. То что запускается на локале - это хорошо, вопрос можно ли это как-то применить в своей деятельности, т.е. если вы делаете иллюстрацию для блога или книги или что-то подобное, может ли это заменить стоковые фото или работу иллюстратора

timonin Nov 25 2023 at 08:49

А то что у вас зебры в три раза крупнее льва, вас не смущает? Эти вещи делаются с помощью инпеинтинга и контролнета.

Конечно можно сменить стоки, большинство контент мейкеров и сммщиков так и делают уже пол года, если владеешь промптингом то картинку проще сгенерить чем найти.

DenisTrunin Nov 25 2023 at 10:06

Тоже верно, есть недостатки.

А может быть вы знаете какие-нибудь ресурсы\статьи наподобии этой которые объясняют как вообще это делается с основ - " инпеинтинга и контролнета " ?

jryj Nov 25 2023 at 10:23

Вот неплохой ресурс: https://stable-diffusion-art.com/tutorials/

Но стоит учитывать, что всё это развивается столь быстро, что на момент публикации многое может устареть и потерять актуальность.

Из русскоязычного есть на ютубе канал xpuct - рассказывает хорошо, но со специфическим юмором.

timonin Nov 25 2023 at 14:50

Посмотрите мой ютуб канал и бусти, там буквально все темы освещаются =)

LF69ssop Nov 22 2023 at 12:28

Есть способ генерировать изображения нормального размера?

Ну например для печати на футболке хотят A3 300dpi. SD на этом умирает, не хватает памяти видеокарты.

Я уж молчу про какие-то более интересные и полезные разрешения типа полтора метра по длинной стороне при 300dpi.

timonin Nov 22 2023 at 12:40

Это не так делается просто. Вы сначала генерируете изображение стандартного разрешения. А потом апскейлите его до того разрешения до которого надо, для этого есть ряд инструментов. Видел примеры детализированных апскейлов и по 50 тысяч пикселей сторона.

LF69ssop Nov 24 2023 at 11:47

Я пробовал. Но деталей не прибавляется.

Вероятно что-то я делаю неверно. Можете дать ссылку на какой-то пример?

timonin Nov 24 2023 at 20:15

SD Upscale, ищите по нему самый свеженький гайд, тайловый апскейл вам поможет.

NeoCode Nov 22 2023 at 16:49

Интересно, а как именно обучают такие нейросети? Скачивают кучу картинок из инета и к каждой ручками какие-то люди из бедных стран добавляют описание? Сколько нужно изображений? Насколько подробным должно быть описание? Достаточно ли набора тегов?

timonin Nov 22 2023 at 17:02

Вы все верно представляете. Правда делают это не люди в бедных странах, а сами авторы и создатели моделей. Количество зависит от задачи, человека добавить в модель и 30 фоток хватит, добавить стиль фоток 100, добавить целый культурный код страны уже несколько тысяч нужно. В описании дата сетов как и в обучении в целом есть свои тонкости, но их столько, что на серию статей хватит.

Sap_ru Nov 22 2023 at 23:15

"Авторы" нанимают именно что "бедных людей" уже куча скандалов была про найм лидерами ИИ народа в африках за 3 доллара в день на полный день для разметки контента. Правда, в чём криминал не ясно, так как алтернативой было бы отправить этих людей рыться по помойкам, а не в сухости и тепле с печеньками сидеть перед мониторами. Уже есть масса предложений для найма разметчиков контета пулами по 20'000 человеко/часов за $300. За несколько тысяч долларов можно ой-ой какую сеть всякому интересному научить.

timonin Nov 23 2023 at 06:55

Авторы моделей на civitai обычные люди, а не "Авторы", нанимающие "бедных людей". Дата сеты все описывают сами, ручками. Про какие вы корпорации зла говорите не очень ясно.

timonin Nov 26 2023 at 13:45

mvt1999 Dec 1 2023 at 20:00

А как удалить историю? Или как почистить лог-файл? Спасибо за ответ.

timonin Dec 1 2023 at 20:01

Лог файл лежит в папке Output в папках с датами генерацией.

mvt1999 Dec 1 2023 at 20:02

Да, именно так и делаю. Но при каждом новом запуске все восстанавливается.

mvt1999 Dec 1 2023 at 20:05

Спасибо, разобрался.

timonin Dec 4 2023 at 16:06

Обращайтесь =)

mvt1999 Dec 6 2023 at 06:24

Огромное спасибо за статью. Это реально ресурс, на который я подсел))), в отличие от других с их платностью, переусложненным интерфейсом и пр.

mvt1999 Dec 6 2023 at 08:37

Еще такой момент мне непонятен... Вот если брать портреты известных личностей, как например в Вашем примере с ДиКаприо - тут уж точно не ошибешься, 100% схожесть. Но с другими, также известными медийными персонажами проблема - они похожи, да, но все таки что-то не то.( От чего это зависит?

timonin Dec 6 2023 at 09:44

От того, насколько популярен персонаж и как много с ним в целом контента, модели обучаются на открытых дата сетах, примерно том же, что вы можете найти в гугле, если при поиске по картинкам в гугле вы получаете хороший консистентный результат, персонаж примерно одинаково выглядит, примерно одного возраста, то скорее всего и модель выдаст узнаваемый образ.

mvt1999 Dec 6 2023 at 10:04

Спасибо за ответ. Но все же не думаю, что контента ДиКаприо сильно больше чем с Уинслет. Вообще обратил внимание, что мужские персонажи получаются больше похожи на оригинал, чем женские. Вот пример: Справа сразу понятно кто, хотя тоже не идеал, а вот слева по мнению ИИ - Дженифер Энистон

johnfound Dec 6 2023 at 10:36

Так я и реальных женщин иногда не узнаю когда накрасятся/смоют краску.

timonin Dec 6 2023 at 10:46

Действительно, думаю отчасти причина и в этом, ДиКаприо во всех фильмах играет самого себя, т.е. он достаточно типичен, чего не скажешь про женщин - актрис, они от роли к роли могут ну прям сильно по разному выглядеть.

Ivan2024 Dec 7 2023 at 14:08

Была у кого такая проблема и как решали? Вы дает ошибку при запросе.

timonin Dec 7 2023 at 14:09

Скорее всего проблема была еще до ошибки, я не вижу, чтобы у вас был запущен терминал в котором приложение выполняется. Вот перед тем как он умирает в нем скорее всего есть ответ, проследите.

Ivan2024 Dec 7 2023 at 18:47

Спасибо! Разобрался. Дрова на викарту старые, точнее с винды. А с официального сайта нвидео, карта конфликтует с материнкой. Буду разбираться.

ShNasty Dec 9 2023 at 15:19

Спасибо за статью. С самой нейросетью все понятно, работает. Не совсем понятно, как в данном случае работать с лицензией? Если использовать не дополнительные модели, а имеющиеся стили. Не нашла никакой информации об этом ни внутри сети, ни где-либо еще

timonin Dec 9 2023 at 15:23

Обычно, все, что вы создаете принадлежит вам, естественно если не нарушает авторских и смежных прав. Подробнее прочитать про лицензию каждой конкретной модели можно на сайте civitai.

Но по факту, сейчас с нейронками и лицензированием творится дикий запад, доказать точно на какой модели было создано конкретное изображение невозможно, потому что большинство моделей содержат информацию друг из друга в результате бесконечных смешиваний.