Как стать автором
Обновить

Комментарии 24

DALL-E не пробовал, но что у Midjourney, что у Stable Diffusion, на мой взгляд, одна и та же проблема. Приходится прокрутить несколько (а иногда и несколько десятков) вариантов, чтобы просто получить то, что я просил (про качество я уже не говорю). Т.е. например, если я ввожу запрос типа: "кот с мордой собаки летит на крыльях над ночным городом" (на английском естественно), то нейросеть, порой, тупо выкидывает некоторые условия и рисует только часть из запрошенного. Либо просто кота в городе, либо собак, либо не рисует город, либо кота рисует как дом и т.д., приходится дублировать условия и то, это не гарантирует их выполнение.

Да, вы верно отметили. В Midjourney и Stable Diffusion иногда сложней получить что-то "годное". Если нужно придумать, как объединить набор рандомных объектов, то лучше воспользоваться DALL-E. Она хотя бы не игнорирует условия.

DALL-E 2 в статье несколько раз называется бесплатным, но он вполне себе платный, хоть и выдает каждый месяц десяток бесплатных кредитов для генерации. За сравнение спасибо, сети действительно очень разные, и prompt-ы для каждой нужно отдельно подбирать.

Спасибо за важное уточнение!

Как-то "до" фиксинга и апскейлинга рисунки выглядят реалистичнее, если честно :)

Вопрос - в статье специально использовались довольно простые запросы к нейросеткам?

просто, насколько я знаю, тому же миджорнею для особо красивых картинок предлагают многострочные запросы.
как пример:

"small stream that passes through the middle of the forest, 8K, ultra realistic, photography, RTX, light mode, octane render"
то есть, с задаванием параметров по качеству рисунка и его стилистике

Здравствуйте!

Да, у нас была задача посмотреть именно на композиции и на то, какие получаются генерации по умолчанию.

Запросы можно дополнять и указывать, например, стиль определенного художника. Но тогда крайне сложно выявить, что именно не понимают нейронки. Это тема, кажется, для отдельной статьи 🧐

вообще, мне кажется, неплохая идея - сравнить разные режимы работы у разных нейросеток)

вдруг у одной из них "фотореалистичность" означает не то, что у другой

но я понимаю, что тут должно быть весьма кропотливая работа проведена, на паре картин вряд ли получится

Stable Diffusion для меня номер один с недосягаемым отрывом, потому как у него есть важнейшая, по моему мнению, фича — локальная работа и локальный же результат, независимо от сторонних серверов, sjw, дискордов, санкций, политиков и прочего. По-старомодному так — скачал, настроил, пользуйся! Красота же.
И выдавать он может ой какое искусство, если правильно с ним договориться, например из последнего:
Заголовок спойлера
image

image

image

image

вот кстати да. Отлично работает, настраивается так, что потребляет до 4гб видеопамяти (привет ноутбуки).

Кроме правки лиц - ей еще бы подкрутить руки-ноги (а то бывают многоножки), но все равно классно работает.

нам в чатик один раз скинули "эротишные" картинки от нее... выглядят, если честно, крипово

кидать сюда, по понятным причинам, не буду, но если их описывать - у женщин из грудей вырастали руки, делающие селфи на айфон, или была, к примеру, моделька без руки, но с двойным глазом... крипота, да и только =/

Это да, тратить время всё равно приходится, подбирать слова и потом полировать, отделяя зёрна от плевел.
Впрочем, неудавшиеся кадры мне тоже нравятся, половину сохраняю как референс для хоррора/сайфай, или просто как хохму)
Идеальной девушки не существу...
image

картинка по запросу "девушка, ноги от плеч" ?

"минимальная комплектация".

Похоже, сейчас правилом хорошего тона станет обязательное упоминание ключёвых слов как пруф, что изображение не было доделано вручную в графических редакторах.

Изображения из комментария выше - результат работы зафайнтюненой Waifu Diffusion - специально дообученеый на анимешных девушках вариант Stable Diffusion. Это ещё одно преимущество SD, её можно дообучать.

Я развернул SD на домашних картофельных компах с 1060/6гб, 8гб рам и 1660/6гб, 16гб рам. Датасеты качал разные, вроде как на 4 и 7гб. 1 картинка 512* вылетает за 20-25 секунд по методу эйлер. Апскейлер лакруа в пределах двух секунд на максимальное увеличение, есрган гдето 30сек работает.

Sd больше всех похожа на рабочий инструмент. Вопервых, бесплатно сидит на твоем компе средних характеристик (у нас i7 890 и i7 2600). Во вторых, картинка с нуля по промту, ок, поискать идей и композиций. Во-вторых, img2img - работа по запросу и исходному изображению, позволяет накидать композицию самому и фотобашить промежуточные варики, прикрепляя в фоше "подсказки" по местам. В-третьих, апскейлер на финише, можно разогнать 512пикс в 2048, а 2048 в... Ну тут картофельный комп начинает лагать) И! Никаких ограничений.

Делаем с женой на SD закотовки под реальную живопись, плюс промежуточный этап в цифровом рисунке. Помимо ржаки с косяков, упрощает, убыстряет работу. Ну и вообще мы счастливы увидеть "новые сюжеты" босха, брейгеля, малевича, кандинского, родченко. Рад что такой инструмент запилили.

Да, косячит, но люди косячат тоже, ток в других аспектах. По времени - вне конкуренции

Тоже пользуюсь ей локально на 1660 6гб. А можете поделиться ссылкой на веса в 7гб?

Версия SD-1-4.

Веса на 4 Gb

Веса на 7 Gb

Возможно придется залогинится чтобы скачать.

Благодарю!

Делаем с женой на SD закотовки под реальную живопись, плюс промежуточный этап в цифровом рисунке.

вот кстати да!

Делаем с женой на SD закотовки под реальную живопись

только сейчас заметил "закотовки".
да, а ведь теперь фраза "закотовка под фотки" - это не опечатка, а обычное описание подготовительного этапа.

Судя по всему в midjourney не использовали команды
—test —creative —upbeta —s —chaos тогда бы результат был бы без артифактов на лицах и был бы реалистичным. Вот мои эксперименты с этими параметрами pikabu.ru/story/mashina_mozhet_sozdat_iskusstvo_tvoreniya_midjourney_9451125

Сравнение разных нейросетей на одних и тех же запросах, имхо, сомнительная идея, которая не дает реального понимания качества результата инструмента.

Midjourney действительно выдает картинки в среднем эстетичнее, но плохо рисует конкретные вещи и стили, которые сильно отличаются от её собственного.

SD плохо генерирует фотографии, зато отлично совмещает стили, а то, что веса открыты дают бесконечные возможности для её использования и исследования.

DALLE-2 отлично следует тексту запроса, но это черный ящик на серверах OpenAI, который жрет много денег и имеет жёсткую входную цензуру для запроса.

В тесте "нарисовать себя" mj скорее всего понял midjourney как "полпути", а sd понял stable, как конюшню

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.