Comments 32
Семипальцевая нимфа. А если прямо такой промпт задать ?
highly realistic
насколько помню рекомендации для midjourney - лучше не использовать такое словосочетание в промпте. Так как оно контринтуитивно снижает фотореалистичность. Ведь к настоящим фоткам такой тег не добавляют. А к хорошо прорисованным картинкам - вполне. И поэтому такой тег в обучающей выборке скорее обозначает именно очень хорошо прорисованную от руки картинку.
Вместо этого рекомендовалось использовать какие-то параметры, которые обычно идут в подписи на форуме фотографов: название камер, фокусное расстояние и т.п. Типа "Nicon 32mm"
Все неплохо, пока просишь что-то "стандартное". А вот нестандартные картинки правильно не генерируются. Например, не получается сегнерировать гигантскую годзиллу с головой человека. Дважды попробовал на пробной SD 3.5 Large. Годзилла есть, а вот человеческой головы нет. Ни отдельно ни вместо годзильей.
Свиноцикл тоже не получается (транспорт, объединяющий мотоцикл и свинью). "Генератор" просто игнорирует часть слов в описании.
Да, чтобы получить таких гибридов, нужно постараться, и не факт, что получится )
Простым промтом да, не получится. Тут нужно функции вроде inpaint использовать
Вообще во флюксе (правда не Про) получилась с годзиллой. Но одна из четырех генераций и промт не совсем "честно" составлял. А попросил чатГПТ максимально подробно "описать" некую выдуманную фотографию на которой изображена годзилла с головой человека. Ну он и нагенерил несколько абзацев текста. Который я флюксу и скормил.
Скрытый текст

Здорово.. но, получается, "ИИ" все больше уходит от обычного пользователя. Теперь для правильной генерации нужен специалист, который будет генерировать промты для генерации описания картинки для текстового ИИ..
Теперь для правильной генерации нужен специалист
Ну нет, тренд в обратную сторону. Это тогда (во времена первых популярных midjourney и SD) нужен был промпт инженеринг для генерации картинок.
В современных версиях Dall-E (он этот тренд популяризировал), Flux и почти каждой свежей модели генерации картинок встроена ллм (для Flux это T5) для перевода естественного языка на понятный модели. А все вот эти кучи бессвязных тегов через запятую, которые работали на магии - уходят в прошлое.
Я бы так не сказал. ЧатГПТ по сути сочинил простой человекочитаемый текст, без каких то особенностей промтов - вот его флюксу я и скормил. Вполне такой сочинить и "руками" можно. Т.е. описать побольше деталей особенностей и прочее. Просто ГПТшкой быстрее получилось )
Со свиноциклом такая же ситуация. Попросил придумать концепт мотоцикла с "запчастями" от свиньи. И скормил флексу. "Годных" результатов уже побольше чем с годзилой.
Видимо таки надо больше слов накидывать что бы он "понимать начинал" такие описания
Скрытый текст

Какая прелесть! Рядовых дизайнеров уже можно заменять. Интересно, ИИ осилит дизайн интерьеров (это уже идея для стартапа)?
P.S. правда, я пытался получить картинку "живого" свиноцикла - свиньи-киборга-мотоцикла.
это уже идея для стартапа
Боюсь это уже десятки существующих продуктов (гуглить ai interior design).
В недавней статье от ПИК они даже планировки этажей с ИИ генерировали
я пытался получить картинку "живого" свиноцикла - свиньи-киборга-мотоцикла
SDXL, "(motorcycle made from a pig:1.5), living pig, (cyborg:1), biopunk" + разные лоры:
Hidden text

Нейросеть - не волшебная кнопка, несмотря на подобные многие заявления, это инструмент, как и Фотошоп. Инструмент классный, инструмент могучий и продвинутый, но тем не менее, как и с другим софтом, для нужного результата требуются: усидчивость + опыт/знания + время, особенно это хорошо осознаёшь, когда не просто так от балды генеришь, а используешь в работе.
По моему опыту, создать в нейросети можно всё, вопрос лишь в трёх вышеописанных факторах.
ИИ осилит дизайн интерьеров
И интерьеров, и мебели, и одежды.
Все неплохо, пока просишь что-то "стандартное".
Недавно просил у Adobe Firefly красную пирамиду. Просто правильную треугольную пирамиду (в определённом окружении). Даже тетраэдр просил, на всякий случай. Но нет, безумная штука раз за разом упорно выдавала египетские пирамиды из кирпичей.
Яндексовский "Шедеврум" — та же беда.
Кое-как справился лишь майкрософтовский "Дизайнер" — но и то лишь с какой-то сотой попытки.
Поэтому вот как раз с самыми "стандартными" запросами порой могут возникать весьма неожиданные затыки, даже на самых банальных (казалось бы!) вещах... ))
Я вроде человек, но "red pyramid" и меня в ступор ставит.
Если бы вы привели полный запрос, включая описание окружения, по контексту я бы может и понял. Хотя если бы там было про "среди множества детских игрушек" и рисовалка бы справилась. А так - вполне логично представить нечто типа египетской пирамиды только красного цвета, например, в лучах закатного солнца.
"red pyramid made of plastic" (metal, etc.) выдает вполне ожидаемые (мной) изображения.
"red pyramid in the forest" выдает что-то более похожее на палатку, подсвеченную красным светом изнутри, но ни разу не "египетскую".
Да в том-то и дело, что писал максимально подробный запрос (даже занудно-подробный, я бы сказал)). Но вот именно на слове "пирамида" всех клинило — и сразу переключало на кирпичи и египетские пирамиды.
SDXL, коротенький промпт: "red pyramid art object made of solid plastic, in modern nordic interior", к нему негатив: "egypt, egyptian", генерация первая, без инпаинта и прочего:
Hidden text

На 15 снимке Flux изобретательно скрестил варочную панель с мойкой. Выдвижной ящик внизу видимо декоративный. Кстати, ниже ручки на дверцах отбрасывают двойные тени. SD сочинил что-то ещё более любопытное, с пространственными искажениями.
В целом, на мой взгляд картинки от SD представляются более реалистичными. По первому впечатлению.
Помимо пальцев и прочей анатомии меня еще впечатлила генерация текстов. И словесное описание весьма подробное, практически на обычном человеческом языке.
A female stands in front of a space portal surrounded by stars and planets. Her long hair is loose and her fair skin glows under the soft light of the stars. She holds a glass board with cyan neon text "Save me!". On her head there are two small round devices that emit a soft blue light, creating a sense of connection with space. The background of the image consists of several elements: on the left is a large space object surrounded by a network of wires and tubes, and on the right is the Earth illuminated by the sun. At the top of the image are flying machines of unknown origin, which add to the sense of cosmic expansion.
Steps: 20, Sampler: DPM++ 2M, Schedule type: Simple, CFG scale: 1, Distilled CFG Scale: 3.5, Seed: 640871845, Size: 896x1152, Model hash: bea01d51bd, Model: flux1-dev-bnb-nf4-v2, Version: f2.0.1v1.10.1-previous-561-g82eb7566, Diffusion in Low Bits: Automatic (fp16 LoRA), Module 1: ae, Module 2: clip_l, Module 3: t5xxl_fp16
Скрытый текст


SD 3.5 довольно хорошо справляется. Flux хорош, но у него всегда генерации слишком постобработанные как бы, часто даже ближе к тендерам. Мне пока больше всего нравится Imagen 3 в плане реализма, рук и понимания промпта
Сразу видно заказную статью. У SD результат зависит от модели, которую используют для генерации. Сейчас их тысячи. И результаты могут быть абсолютно разные
SD3.5 очень странная модель. Такое впечатление, что ее тренировали на Инстаграммовских снимках. Девушки-модели (только руки куда-то спрячьте, в руки она, похоже, не умеет) и интерьеры получаются впечатляющие, а вот ландшафты какие-то пластмассовые. После Sana вообще ни в какое сравнение не идут.
Сравнение 30 фотореалистичных ИИ-изображений: Flux1.1 против SD3.5