NeyroEntuziast Nov 26 2024 at 18:10

Сравнение 30 фотореалистичных ИИ-изображений: Flux1.1 против SD3.5

Easy

4 min

6.4K

Artificial Intelligence

Review

Translation

Comments 32

peacemakerv Nov 26 2024 at 18:33

Семипальцевая нимфа. А если прямо такой промпт задать ?

NeyroEntuziast Nov 26 2024 at 18:40

Можно протестировать )

peacemakerv Nov 26 2024 at 18:44

Протестировал... эх и тупыыые.

Скрытый текст

NeyroEntuziast Nov 26 2024 at 18:46

Просто считать не умеют )

plFlok Nov 26 2024 at 18:48

highly realistic

насколько помню рекомендации для midjourney - лучше не использовать такое словосочетание в промпте. Так как оно контринтуитивно снижает фотореалистичность. Ведь к настоящим фоткам такой тег не добавляют. А к хорошо прорисованным картинкам - вполне. И поэтому такой тег в обучающей выборке скорее обозначает именно очень хорошо прорисованную от руки картинку.

Вместо этого рекомендовалось использовать какие-то параметры, которые обычно идут в подписи на форуме фотографов: название камер, фокусное расстояние и т.п. Типа "Nicon 32mm"

plFlok Nov 27 2024 at 06:46

Мне подсказали, что Nikon пишется иначе. А поправить уже не могу.

RusikR2D2 Nov 26 2024 at 18:54

Все неплохо, пока просишь что-то "стандартное". А вот нестандартные картинки правильно не генерируются. Например, не получается сегнерировать гигантскую годзиллу с головой человека. Дважды попробовал на пробной SD 3.5 Large. Годзилла есть, а вот человеческой головы нет. Ни отдельно ни вместо годзильей.
Свиноцикл тоже не получается (транспорт, объединяющий мотоцикл и свинью). "Генератор" просто игнорирует часть слов в описании.

NeyroEntuziast Nov 26 2024 at 18:57

Да, чтобы получить таких гибридов, нужно постараться, и не факт, что получится )

AlexRihter9690 Nov 26 2024 at 19:03

Простым промтом да, не получится. Тут нужно функции вроде inpaint использовать

NeyroEntuziast Nov 26 2024 at 19:07

Да, все верно

knaje Nov 27 2024 at 04:10

Вообще во флюксе (правда не Про) получилась с годзиллой. Но одна из четырех генераций и промт не совсем "честно" составлял. А попросил чатГПТ максимально подробно "описать" некую выдуманную фотографию на которой изображена годзилла с головой человека. Ну он и нагенерил несколько абзацев текста. Который я флюксу и скормил.

Скрытый текст

RusikR2D2 Nov 27 2024 at 07:22

Здорово.. но, получается, "ИИ" все больше уходит от обычного пользователя. Теперь для правильной генерации нужен специалист, который будет генерировать промты для генерации описания картинки для текстового ИИ..

positroid Nov 27 2024 at 07:56

Теперь для правильной генерации нужен специалист

Ну нет, тренд в обратную сторону. Это тогда (во времена первых популярных midjourney и SD) нужен был промпт инженеринг для генерации картинок.

В современных версиях Dall-E (он этот тренд популяризировал), Flux и почти каждой свежей модели генерации картинок встроена ллм (для Flux это T5) для перевода естественного языка на понятный модели. А все вот эти кучи бессвязных тегов через запятую, которые работали на магии - уходят в прошлое.

knaje Nov 27 2024 at 09:08

Я бы так не сказал. ЧатГПТ по сути сочинил простой человекочитаемый текст, без каких то особенностей промтов - вот его флюксу я и скормил. Вполне такой сочинить и "руками" можно. Т.е. описать побольше деталей особенностей и прочее. Просто ГПТшкой быстрее получилось )

knaje Nov 27 2024 at 07:02

Со свиноциклом такая же ситуация. Попросил придумать концепт мотоцикла с "запчастями" от свиньи. И скормил флексу. "Годных" результатов уже побольше чем с годзилой.

Видимо таки надо больше слов накидывать что бы он "понимать начинал" такие описания

Скрытый текст

RusikR2D2 Nov 27 2024 at 07:20

Какая прелесть! Рядовых дизайнеров уже можно заменять. Интересно, ИИ осилит дизайн интерьеров (это уже идея для стартапа)?

P.S. правда, я пытался получить картинку "живого" свиноцикла - свиньи-киборга-мотоцикла.

positroid Nov 27 2024 at 07:58

это уже идея для стартапа

Боюсь это уже десятки существующих продуктов (гуглить ai interior design).

В недавней статье от ПИК они даже планировки этажей с ИИ генерировали

Astus Nov 27 2024 at 18:02

я пытался получить картинку "живого" свиноцикла - свиньи-киборга-мотоцикла

SDXL, "(motorcycle made from a pig:1.5), living pig, (cyborg:1), biopunk" + разные лоры:

Hidden text

Нейросеть - не волшебная кнопка, несмотря на подобные многие заявления, это инструмент, как и Фотошоп. Инструмент классный, инструмент могучий и продвинутый, но тем не менее, как и с другим софтом, для нужного результата требуются: усидчивость + опыт/знания + время, особенно это хорошо осознаёшь, когда не просто так от балды генеришь, а используешь в работе.
По моему опыту, создать в нейросети можно всё, вопрос лишь в трёх вышеописанных факторах.

ИИ осилит дизайн интерьеров

И интерьеров, и мебели, и одежды.

RusikR2D2 Nov 28 2024 at 08:32

Спасибо! Теперь я видел все :)

Qoragar Nov 27 2024 at 15:18

Все неплохо, пока просишь что-то "стандартное".

Недавно просил у Adobe Firefly красную пирамиду. Просто правильную треугольную пирамиду (в определённом окружении). Даже тетраэдр просил, на всякий случай. Но нет, безумная штука раз за разом упорно выдавала египетские пирамиды из кирпичей.

Яндексовский "Шедеврум" — та же беда.

Кое-как справился лишь майкрософтовский "Дизайнер" — но и то лишь с какой-то сотой попытки.

Поэтому вот как раз с самыми "стандартными" запросами порой могут возникать весьма неожиданные затыки, даже на самых банальных (казалось бы!) вещах... ))

Antra Nov 27 2024 at 16:18

Я вроде человек, но "red pyramid" и меня в ступор ставит.

Если бы вы привели полный запрос, включая описание окружения, по контексту я бы может и понял. Хотя если бы там было про "среди множества детских игрушек" и рисовалка бы справилась. А так - вполне логично представить нечто типа египетской пирамиды только красного цвета, например, в лучах закатного солнца.

"red pyramid made of plastic" (metal, etc.) выдает вполне ожидаемые (мной) изображения.

"red pyramid in the forest" выдает что-то более похожее на палатку, подсвеченную красным светом изнутри, но ни разу не "египетскую".

Qoragar Nov 27 2024 at 16:31

Да в том-то и дело, что писал максимально подробный запрос (даже занудно-подробный, я бы сказал)). Но вот именно на слове "пирамида" всех клинило — и сразу переключало на кирпичи и египетские пирамиды.

Antra Nov 27 2024 at 16:39

Может правда Flux (у меня в Forge UI) сильно лучше стал. Говорят, там есть встроенная LLM, переводящая человеческий язык на "специфический для модели".

Astus Nov 27 2024 at 17:17

SDXL, коротенький промпт: "red pyramid art object made of solid plastic, in modern nordic interior", к нему негатив: "egypt, egyptian", генерация первая, без инпаинта и прочего:

Hidden text

ion2 Nov 26 2024 at 19:13

На 15 снимке Flux изобретательно скрестил варочную панель с мойкой. Выдвижной ящик внизу видимо декоративный. Кстати, ниже ручки на дверцах отбрасывают двойные тени. SD сочинил что-то ещё более любопытное, с пространственными искажениями.

В целом, на мой взгляд картинки от SD представляются более реалистичными. По первому впечатлению.

NeyroEntuziast Nov 26 2024 at 19:17

Да, в плане мебели и техники нейронки такое могут сгенерировать, что волосы дыбом встают )

Antra Nov 26 2024 at 19:23

Помимо пальцев и прочей анатомии меня еще впечатлила генерация текстов. И словесное описание весьма подробное, практически на обычном человеческом языке.

A female stands in front of a space portal surrounded by stars and planets. Her long hair is loose and her fair skin glows under the soft light of the stars. She holds a glass board with cyan neon text "Save me!". On her head there are two small round devices that emit a soft blue light, creating a sense of connection with space. The background of the image consists of several elements: on the left is a large space object surrounded by a network of wires and tubes, and on the right is the Earth illuminated by the sun. At the top of the image are flying machines of unknown origin, which add to the sense of cosmic expansion.
Steps: 20, Sampler: DPM++ 2M, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 640871845, Size: 896x1152, Model hash: bea01d51bd, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-561-g82eb7566, Diffusion in Low Bits: Automatic (fp16 LoRA), Module 1: ae, Module 2: clip_l, Module 3: t5xxl_fp16

Скрытый текст

NeyroEntuziast Nov 26 2024 at 19:46

Flux тексты генерирует лучше, чем миджорни

CoyoteFX Nov 27 2024 at 09:39

Скрытый текст

Для сравнения Imagen 3 с промптом ещё лучше работает

CoyoteFX Nov 27 2024 at 08:31

SD 3.5 довольно хорошо справляется. Flux хорош, но у него всегда генерации слишком постобработанные как бы, часто даже ближе к тендерам. Мне пока больше всего нравится Imagen 3 в плане реализма, рук и понимания промпта

Vugluskr1 Nov 28 2024 at 13:11

Сразу видно заказную статью. У SD результат зависит от модели, которую используют для генерации. Сейчас их тысячи. И результаты могут быть абсолютно разные

meettya Dec 27 2024 at 18:43

SD3.5 очень странная модель. Такое впечатление, что ее тренировали на Инстаграммовских снимках. Девушки-модели (только руки куда-то спрячьте, в руки она, похоже, не умеет) и интерьеры получаются впечатляющие, а вот ландшафты какие-то пластмассовые. После Sana вообще ни в какое сравнение не идут.