Комментарии 92
У меня назрел вопрос. Вам комфортен просмотр таких картинок? Потому что при просмотре картинок от нейросетей я ощущаю чувство дискомфорта (от тошноты до отвращения). Неестественность картинок я улавливаю явно и четко. Это и отталкивает меня от их самостоятельной генерации. А уж то, что их начинают использовать в быту - меня просто пугает.
Тех, кто вырос на мультиках Арменфильма, такими картинками не напугать
Ох, тот кто сможет настроить нейросеть так чтобы она конвертировала мультфильмы (например Чебурашку) в стиле Арменфильма однозначно откроет портал в Ад.

Хм, а было бы интересно взглянуть на новые "Утинные истории" глазами Арменфильма :D
Если у вас лапки, но очень хочется визуализировать свою фантазию, то почему бы и нет? Даже то, что рисуют люди не всегда ощущается естественно.
Тут про аудиторию. Например: я - человек, который в прошлом перечитал и пересмотрел овердохрена фантастики и подобного фанарта - конечно, человеческого. И в то же время - я художник примерно на 0%, т.е. ваще ни разу. Ни вкуса, ни цвета. Так вот, я от последней картинки вообще ничего не "улавливаю". Обычная картинка к средней книжке какого-нибудь Булычева или Злотникова. Или арт для форзаца - такого там раньше много печатали для передачи атмосферы. Так что, считая себя целевой аудиторией, заявляю, что такое зайдет на все 100.
И да, жалко (а жалко ли?), что автор прав на тему неизбежности обыденности изначально космических технологий. Теперь студенты будут создавать крутые картины по 500шт за пятак на перемене...
Думаю, тут нужен двойной слепой тест. Возможно у вас от определенного стиля рисовки такое чувство, а не от нейросетей.
Я не могу точно описать ощущения, но это нельзя назвать неприятием какого-то стиля. Независимо от того портрет это или пейзаж, при любой цветовой гамме - неприятие картинки всегда подтверждается фактом применения нейросетей. Что-то родственное с эффектом «зловещей долины», наверное.
Тоже так считаю. Нейросеть рисует так, будто это галлюцинирующий мозг "дорисовывает" детали в светотеневых пятнах, но делает это слишком формально, без выдумки, не соблюдая масштаб объектов и деталей на них:

А вот пример изображения, созданного художником. Помимо композиции тут есть осмысленные детали, пропорциональность, а главное — сюжет.

Нижняя картинка щикарная, залип. Прямо захотелось туда в тот мир.
Но справедливости ради далеко не все художника так могут. Технически многие, но выстроить такую целосность композиции и стиля могут далеко не все.
Верхняя, конечно, пипец.
Я уже сегодняя её разглядывал и такой "Стоп, нафига ему в автомобиле на самом большом экране осциллограмма какой-то скучной синусоиды!?".
Верхняя это заготовка для нижей, эдакий продуктр работы робота-подмалёвщика.
А вы еще не в нем? ) Небоскребы, пробки. Полуруль и экран по центру - как в Тесле. Стрелки, для олдфагов, которым хочется теслу, но не могут без стрелок. Сам факт того, что человек все еще ведет машину - уже настораживает. Явно, очень давно рисовали, судя по тумблерам, форме руля и общей ламповости.
Ну и гашетка, на которую водитель давит - прекрасна)
Поддерживаю, далеко не все нарисованное людьми гениально. Пусть картинки нейросетей не без изъянов, но тоже могут нравиться людям. И уж точно абсолютное большинство людей и близко не сможет нарисовать то, что они сами могут легко сгенерировать с помощью нейросетей.
Киберпанк на советских открытках




Есть большая вероятность, что наш мозг так и хранит запомненное как в картинке наверху. Так как пиксели в мозгу не запоминаются, а имеются какие-то подобия образов. Во сне же как раз такая чушь снится, когда сознание не подключается и рисуется как есть.
Мне наоборот картинка доставляет, расстраивают только мелкие огрехи.
Через раз. В этом посте не было никаких проблем, если не вглядываться в детали города.
А на некоторых картинках корявость сразу выдает нейросеть. Причем рядом с ней может быть картинка из того же сета той же сети, не вызывающая отторжения. Зависит от рандома, наверное. Ну и от наличия/отсутствия людей.
Вы уверены, что это не является самовнушением? Каким образом вы отличаете «неестественность картинки»? В данном конкретном посте картинки, на мой взгляд, довольно адекватны. На некоторых доменах, типа лиц и рук SD действительно лажает и результат выглядит криповато, но, что б везде…
В идеале вам бы провести слепое тестирование — убедится, что вы сами себя не накрутили, или у вас не реакция на современных художников такая…
Что можете об этих сказать:




Я не могу как-то внятно объяснить. Первая и последняя картины выглядят более "логичными", чем вторая и третья. Чем дольше я изучаю сгенерированные, тем больше укачивает или другая напасть. И да, я уже проверил и знаю где какая.
Первая и последняя - напоминают картину, нарисованную вручную красками, а не digital арт/рендер с мельчайшими деталями, как вторая и третья.
Вот именно все что "холст, масло(крупными мазками), (почти)природный пейзаж" - похоже сети уже стопроцентно перекрывают рисование человеком.

Вот такой результат получился у меня после недолгих игр с midjourney. Я тогда ещё не знал про то что вес задавать можно в тексте, тип освещения, фамилию художника и т.д. и т.п. и поэтому составил описание в стиле "светлячки на фоне звёздного неба в таинственном лесу. Атмосфера волшебства" и после нескольких раундов добавления деталей (там не указываешь доп параметры уже, midjourney просто прорабатывает детализацию) получился вот такой результат.
Вау, похоже, эти инструменты отлично генерируют природные пейзажи, текстуры растений и т.п.


А вот эти вам как?
Очень здорово, как визуализация сна. Нейросети как робо-рисовальщики со временем станут помощниками художников.
Художников вряд ли. Все же художник (как мне кажется) это про выражение чего то накопившегося внутри у человека.
Зависит от точки зрения. Попросить нейросетку нарисовать тысячу "Грустный камень лежит в грустной речке под грустным небом" а потом выбрать то, что наиболее соответствует тому что у тебя в душе накопилось -- это может проще, чем руками пытаться выразить. А уж настроение эти сетки гораздо лучше ловят, чем конкретные детали.
У них проблемы как раз когда есть четкое ТЗ "хочу пиджак с красными обязательно симиугольными пуговицами из стразов"
ИИ давно умеет рисовать абстрактное неведомое нечто, ещё лет 10 назад умел. Но как тогда, так и сейчас палится на реализме.
1) Точно работа художника. Только имя забыл.
2-3 выглядит как какие то какой то скриншот или недорогая иллюстрация. Не знаю нейронка или нет. Но просто не интересно.
4) Похоже на Картину маслом. Сомневаюсь что это нейросеть.
Для меня простым маркером на 1 и 4 является наличие отражения. Уверен, что нейросети вообще не знают, что такое зеркало.
2-3 обладают композицией и сюжетом, много деталей, выдержанных в едином стиле. Но от 3 остаётся какое-то неуютное ощущение несоразмерности одних деталей к другим, которое я не знаю, на что списать: то ли автор так хотел, то ли по-другому не умел, то ли автор машина. Но явно не DALL-E, лол.
В презентации еще первой Dalle были тесты с зеркалами с запросом «объект, смотрящий на свое отражение в зеркале»
Недеюсь с ними будет как с 3д фильмами. Лет 15 назад была истерия, все киностудии бросились снимать блокбастеры только в 3д, но потом внезапно оказалось, что людей то подташнивает. И про 3д забыли, как про страшный сон.
Щас все эффективные менеджеры бросятся экономить на художниках и заменять их работы ии-бредом. Очень надеюсь, что рыночек порешает и товары с тошнотворными картинками не будут пользоваться спросом у покупателей, а значит и от них быстро откажутся.
Когда вместо 2D-игр с прорисованной графикой начал внедряться рендер, игроки тихо ненавидели этот кошмар. Потому что 3D того времени «радовало» торчащими полигонами, шестиугольными колёсами, мыльными текстурами и примитивным освещением по Фонгу, от которого хотелось блевать. Это убожество и рядом не стояло с 2D-пейзажами и спрайтами, прорисованными вручную. И в таком положении 3D-игры находились примерно лет десять.
Но увы игрокам — рендерить оказалось намного дешевле, нежели прорисовывать каждую анимацию вручную в десятке ракурсов. И эта разница в цене привела к тому, что новые игры начали выходить почти исключительно в 3D, и мнение игроков никого уже не волновало.
Вы знаете, не все так воспринимали 3Д, я очень любил и 2Д и ранее 3Д. И до сих пор под эффектом утёнка у меня умиление при виде "всратой" графики уровня PS1.
Мной это воспринимается как разные стили в живописи. И гиперреализм хорош и импрессионизм. Вот последний у меня ассоциируется с ранним 3Д.
И да, хочу поделиться опытом из рисования. Важна не столько детализация как светотеневой рисунок (мозг считывает крупный объём), палитра (информация о погоде и освещении) и правильные хорошо отражающие форму контуры объектов.

Своеобразная Uncanny Valley.
Хм, возникает ли у вас чуство тошноты от этих картинок?
Hidden text


Потому что картинки созданные нейросеткой выглядят, как концепт арты. Посмотрите на концепт арты игры Half-Life 2 Beta. Выглядят так, будто их шизики рисовали. Потому что, это буквально грязный, черновой набросок. Художник бы никогда не оставил рисунок таким же, как финальная версия этого города с космическим кораблем.
а что именно не так, например, в этом изображении? Отличили бы её на обложке чего-либо как работу нейронки, а не дизайнера?
Вчера весь день игрался на своей ноутбучной 3070, картинки максимум 768*512, на большее памяти не хватает и результат, конечно, поражает, но и тут есть пределы - она умеет использовать только готовые образы из интернета, создать что-то совершенно новое, увы пока нельзя, но зато менять стили произведений с одного на другое за милое душу. Превратить обычный автобус в стиль киберпанка - получаются просто отличные изображения..
Простите, я может пропустил случайно, но не подскажете, пожалуйста, где скачать эту модель и скрипты? Я слышал только об ограниченном доступе к Dall-E и доступе ко второй модели (забыл название) через Discord.
Одна из популярных сейчас инструкций.
У HLKY Web UI есть опция --optimized и --optimized-turbo, уменьшает использование памяти в ущерб скорости.
Недавно заметил еще одну оптимизированную версию
https://github.com/neonsecret/stable-diffusion
На ней у меня получается с 8 ГБ видеопамяти делать картинки 1024х1024.
Также там есть ссылка на портабельную версию, либо можно попробовать просто скопировать файлы в папку с ранее настроенным Stable Diffusion.
Официальный код на гитхабе: https://github.com/hlky/stable-diffusion
https://github.com/hlky/stable-diffusion/wiki/Installation
Я знатно так потарахтел с другими описаниями прежде чем официальное нашел
Присоединяюсь к вопросу коллеги.
Наш мозг-то так же работает, берёт готовое, обрабатывает и вот результат. Попросите ребёнка 5-7-10 лет нарисовать что-нибудь и увидите насколько заполнены его нейросети образами.
Образ нужно еще научиться из мозга извлекать. Человечество многие тысячелетия не знало, например законов перспективы. Просто не было методик рисования. Примеры исскуства эпохи "до перспективы" это картинки из мемов про страдающее средневековье. Ну или египетские барельефы, где все плоские как в 2Д платформерах.
С другой стороны, а зачем нужна она, перспектива? Она всего лишь художественное средство, а средства подбираются под задачи. Например, если вы делаете колоссальную статую божества в храм, то ваша художественная задача — чтобы голова божества, теряющаяся где-то под потолком, не выглядела нелепо маленькой по сравнению с туловищем, и тогда ваше средство — "обращение перспективы": вы делаете голову больше. При этом на стенах храма вам нужно вместить некоторую назидательную историю из загробного мира, чтобы она читалась, и тогда вы располагаете фигуры рядом друг с другом, и для перспективы в вашей композиции нет места.
Правильная перспектива это средство передачи объёма и пространства. С открытием законов перспективы живопись вышла на уровень ближе к фотореализму.
Египтяне, к слову, очень прокачаны были в скульптуре и превосходно передавали в ней пропорции и тонкие нюансы кривизны тела человека и животных.
Но вот в плоское три-де не могли.
" на CPU занимает несколько минут" - для поразвлекаться - одинаково, пока ты что-то вредное пойдёшь пожевать - оно отрендерится. Всё равно не реал-тайм. Интересно было бы быстро нарендерить кучу, условно, 320х200, а потом выбрать "адекватные" и в разрешении побольше отрендерить.
"В разы больше RAM" - это вдвое? или во сколько? Всё же "условно доступный" десктопный максимум - 24ГБ VRAM RTX 3090 (48ГБ - уже не десктопные игрушки), в то же время уже в десктоп можно и 128, и 256ГБ поставить за часть цены 3090 (зачем - вопрос другой :) ).
Дообучение реально нужно, потому что превратить любого известного публичного человека, например, в капитана америка, с сохранением узнаваемости, легко, а обычное фото обычного человека - не получается, черты лица стираются, очень бы хотелось ее дообучать как-то, но видно это трудно делается) + это нужно для ведения одного персонажа для иллюстрации журналов и книг. Тут очень много версий новых образуется, вплоть до создания мультипликации на основе заготовленных персонажей.
Смог запустить ее(оптимизированный форк репы) на карточке с gtx 1660 super 6 gm vram. В среднем, генерит 1 картинку 512x512 за 30 секунд.
Красиво, но все равно чувствуется неестественность. При том что детализация хорошая - но она и подводит, потому что видны неточности. Потому что сейча это, скорее, красивый калейдоскоп, в котором детали более-менее собираются в общую картину.
Если рассматривать это как "помощь криворукому художнику-фотошоперу" - вполне вариант. Поправить готовое и убрать артефакты - проще, чем нарисовать с 0. По опыту - дорисовать "штампом" в фотошопе платья с рисунком, шею с пиджаком - не сложно, а вот нарисовать - нужно уметь рисовать.
Однако с применением в практических целях данной технологии несколько утрачивается волевые творческие усилия художника.
И зачем мне покупателю креативный продукт, созданный машиной?!
Хотя, возможно, где-то для улучшения искаженных фотографий это могло бы пригодиться! Но это лишь предположение.
Ожидаю в ближайшее время наплыва текстовых квестов и визуальных новелл с такими вот говно-иллюстрациями.
O kurwa.
Не знаю насчёт программного кода, но генерация текстового квеста плюс генерация иллюстраций со Stable Diffusion (по придуманному игроком запросу) уже есть - это AI Dungeon.
Визуальная новелла с полностью нейронным контентом, кстати, уже есть. Endless visual novel. Она очень сломана, и на полном серьезе это воспринимать сложно, но как эксперимент... Начало положено.
Старый прикол "как нарисовать сову" внезапно стал реальностью.
А что со звуком?
Хотелось бы для начала простых пространственных эффектов добавить. Типа - источник улетел за сцену. Но главная проблема - real time. Мы тут уже думали - что в электронной музыке у нас всё повторяется и первые паттерны можно сначала только анализировать. Потом просчитать и начинать менять.
ps извиняюсь, в теме очень отдалённо - на уровне Dolby Pro Logic II, делали аппаратное предыдущего поколения, но оно слишком простое и предсказуемое
Думаю, помучить свой рабочий iMac Pro. Машинка не новая, но еще мощная (3 GHz 10-Core Intel Xeon W, 128 оперативки), должна сдюжить
там cuda toolkit используется, так что радеон не прокатит.
Еще вроде проскакивала инфа, что на cpu можно, но значительно медленее.
Неофициально на AMD тоже можно, вот инструкция или вот ещё одна (Docker)
А вы уверены, что цикл рисования "нарисовал > обработал > дорисовал > обработал" применим? Первоначальная картинка, на мой взгляд, замыливается. На изображении до вклейки корабля очень интересно сделан фон, зеленые дома, какой-то эффект потусторонности, что-ли. Сеть может и не осознает общего сюжета, но он там почти есть. А после многократных применений сетка пытается увидить новые паттерны в своих же рисунках, и старые изображения становятся хуже...
4,2 гигабайта, или как нарисовать что угодно