Doctor_IT Oct 4 2022 at 12:03

Баттл «художников»: сравниваем Midjourney, DALL-E 2 и Stable Diffusion

7 min

34K

Selectel corporate blogMachine learning*Popular scienceThe future is here

+55

Comments 24

CodeName33 Oct 4 2022 at 15:22

DALL-E не пробовал, но что у Midjourney, что у Stable Diffusion, на мой взгляд, одна и та же проблема. Приходится прокрутить несколько (а иногда и несколько десятков) вариантов, чтобы просто получить то, что я просил (про качество я уже не говорю). Т.е. например, если я ввожу запрос типа: "кот с мордой собаки летит на крыльях над ночным городом" (на английском естественно), то нейросеть, порой, тупо выкидывает некоторые условия и рисует только часть из запрошенного. Либо просто кота в городе, либо собак, либо не рисует город, либо кота рисует как дом и т.д., приходится дублировать условия и то, это не гарантирует их выполнение.

Doctor_IT Oct 4 2022 at 19:46

Да, вы верно отметили. В Midjourney и Stable Diffusion иногда сложней получить что-то "годное". Если нужно придумать, как объединить набор рандомных объектов, то лучше воспользоваться DALL-E. Она хотя бы не игнорирует условия.

Doman Oct 4 2022 at 17:03

DALL-E 2 в статье несколько раз называется бесплатным, но он вполне себе платный, хоть и выдает каждый месяц десяток бесплатных кредитов для генерации. За сравнение спасибо, сети действительно очень разные, и prompt-ы для каждой нужно отдельно подбирать.

Doctor_IT Oct 4 2022 at 19:41

Спасибо за важное уточнение!

esselesse Oct 4 2022 at 18:38

Как-то "до" фиксинга и апскейлинга рисунки выглядят реалистичнее, если честно :)

Вопрос - в статье специально использовались довольно простые запросы к нейросеткам?

просто, насколько я знаю, тому же миджорнею для особо красивых картинок предлагают многострочные запросы.
как пример:

"small stream that passes through the middle of the forest, 8K, ultra realistic, photography, RTX, light mode, octane render"
то есть, с задаванием параметров по качеству рисунка и его стилистике

Doctor_IT Oct 4 2022 at 19:39

Здравствуйте!

Да, у нас была задача посмотреть именно на композиции и на то, какие получаются генерации по умолчанию.

Запросы можно дополнять и указывать, например, стиль определенного художника. Но тогда крайне сложно выявить, что именно не понимают нейронки. Это тема, кажется, для отдельной статьи 🧐

esselesse Oct 5 2022 at 15:36

вообще, мне кажется, неплохая идея - сравнить разные режимы работы у разных нейросеток)

вдруг у одной из них "фотореалистичность" означает не то, что у другой

но я понимаю, что тут должно быть весьма кропотливая работа проведена, на паре картин вряд ли получится

Astus Oct 5 2022 at 00:11

Stable Diffusion для меня номер один с недосягаемым отрывом, потому как у него есть важнейшая, по моему мнению, фича — локальная работа и локальный же результат, независимо от сторонних серверов, sjw, дискордов, санкций, политиков и прочего. По-старомодному так — скачал, настроил, пользуйся! Красота же.
И выдавать он может ой какое искусство, если правильно с ним договориться, например из последнего:

Заголовок спойлера

+10

vassabi Oct 5 2022 at 00:41

вот кстати да. Отлично работает, настраивается так, что потребляет до 4гб видеопамяти (привет ноутбуки).

Кроме правки лиц - ей еще бы подкрутить руки-ноги (а то бывают многоножки), но все равно классно работает.

esselesse Oct 5 2022 at 15:40

нам в чатик один раз скинули "эротишные" картинки от нее... выглядят, если честно, крипово

кидать сюда, по понятным причинам, не буду, но если их описывать - у женщин из грудей вырастали руки, делающие селфи на айфон, или была, к примеру, моделька без руки, но с двойным глазом... крипота, да и только =/

Astus Oct 5 2022 at 16:36

Это да, тратить время всё равно приходится, подбирать слова и потом полировать, отделяя зёрна от плевел.
Впрочем, неудавшиеся кадры мне тоже нравятся, половину сохраняю как референс для хоррора/сайфай, или просто как хохму)

Идеальной девушки не существу...

vassabi Oct 6 2022 at 14:13

картинка по запросу "девушка, ноги от плеч" ?

Vsevo10d Oct 10 2022 at 13:35

"минимальная комплектация".

perfect_genius Oct 5 2022 at 16:29

Похоже, сейчас правилом хорошего тона станет обязательное упоминание ключёвых слов как пруф, что изображение не было доделано вручную в графических редакторах.

Kristaller486 Oct 5 2022 at 18:51

Изображения из комментария выше - результат работы зафайнтюненой Waifu Diffusion - специально дообученеый на анимешных девушках вариант Stable Diffusion. Это ещё одно преимущество SD, её можно дообучать.

Kazzagor Oct 5 2022 at 09:11

Я развернул SD на домашних картофельных компах с 1060/6гб, 8гб рам и 1660/6гб, 16гб рам. Датасеты качал разные, вроде как на 4 и 7гб. 1 картинка 512* вылетает за 20-25 секунд по методу эйлер. Апскейлер лакруа в пределах двух секунд на максимальное увеличение, есрган гдето 30сек работает.

Sd больше всех похожа на рабочий инструмент. Вопервых, бесплатно сидит на твоем компе средних характеристик (у нас i7 890 и i7 2600). Во вторых, картинка с нуля по промту, ок, поискать идей и композиций. Во-вторых, img2img - работа по запросу и исходному изображению, позволяет накидать композицию самому и фотобашить промежуточные варики, прикрепляя в фоше "подсказки" по местам. В-третьих, апскейлер на финише, можно разогнать 512пикс в 2048, а 2048 в... Ну тут картофельный комп начинает лагать) И! Никаких ограничений.

Делаем с женой на SD закотовки под реальную живопись, плюс промежуточный этап в цифровом рисунке. Помимо ржаки с косяков, упрощает, убыстряет работу. Ну и вообще мы счастливы увидеть "новые сюжеты" босха, брейгеля, малевича, кандинского, родченко. Рад что такой инструмент запилили.

Да, косячит, но люди косячат тоже, ток в других аспектах. По времени - вне конкуренции

sswwssww Oct 5 2022 at 13:55

Тоже пользуюсь ей локально на 1660 6гб. А можете поделиться ссылкой на веса в 7гб?

Ogoun Oct 6 2022 at 01:27

Версия SD-1-4.

Веса на 4 Gb

Веса на 7 Gb

Возможно придется залогинится чтобы скачать.

sswwssww Oct 8 2022 at 15:21

Благодарю!

vassabi Oct 5 2022 at 16:00

Делаем с женой на SD закотовки под реальную живопись, плюс промежуточный этап в цифровом рисунке.

вот кстати да!

vassabi Oct 9 2022 at 17:20

Делаем с женой на SD закотовки под реальную живопись

только сейчас заметил "закотовки".
да, а ведь теперь фраза "закотовка под фотки" - это не опечатка, а обычное описание подготовительного этапа.

redpax Oct 5 2022 at 09:28

Судя по всему в midjourney не использовали команды
—test —creative —upbeta —s —chaos тогда бы результат был бы без артифактов на лицах и был бы реалистичным. Вот мои эксперименты с этими параметрами pikabu.ru/story/mashina_mozhet_sozdat_iskusstvo_tvoreniya_midjourney_9451125

Kristaller486 Oct 5 2022 at 19:11

Сравнение разных нейросетей на одних и тех же запросах, имхо, сомнительная идея, которая не дает реального понимания качества результата инструмента.

Midjourney действительно выдает картинки в среднем эстетичнее, но плохо рисует конкретные вещи и стили, которые сильно отличаются от её собственного.

SD плохо генерирует фотографии, зато отлично совмещает стили, а то, что веса открыты дают бесконечные возможности для её использования и исследования.

DALLE-2 отлично следует тексту запроса, но это черный ящик на серверах OpenAI, который жрет много денег и имеет жёсткую входную цензуру для запроса.

CAJAX Oct 6 2022 at 08:49

В тесте "нарисовать себя" mj скорее всего понял midjourney как "полпути", а sd понял stable, как конюшню