Pull to refresh

Comments 16

Кажется, будто мощная фича таких сетей, - произвольный промпт, становится их проблемой, когда видишь, какие тонны нелогичного бреда в промптах вынуждены писать люди, чтобы получить именно тот стиль.

К примеру, вот пример хвоста, который последовал за объективным описанием, который ввёл художник, чтобы стилизировать свое фото (и получил хороший результат)

photo realistic, cinematic shot, cinematic grading + cinematic post-processing + photo taken by ARRI, photo taken by Sony, photo taken by Canon, photo taken by Nikon, photo Taken by Sony, Photo taken by Hasselblad + Photorealistic, Photorealistic + Incredibly detailed, sharp, detail + Meticulously designed environment + Professional lighting, Shooting lighting + disco, bright, moody environment + 35mm, 50mm, 85mm , 100mm + lightroom, behance Photography, unsplash + long Exposure - q 2 —v 4

Если вчитаться в этот бред (ибо тут масса прямо противоположных утверждений, как, например, 35, 50, 85 и 100 миллиметров фокусного расстояния), то становится понятно, что это все - попытка обойти отсутствие иерархии понятий в сети. Очевидно, что, если перевести промпт на человеческий язык, то это будет что-то вроде "дай мне профессиональный кинематографичный снимок, сделанный на профессиональное оборудование". Но, так, как сеть неспособна к такому обобщению, то человек вынужден писать что-то вроде "дай мне стиль из изображений, где в тегах есть фокусное расстояние или производитель камеры, или указано популярное у фотографов ПО потому, что есть надежда, что на этом изображении был профессиональный кадр, а не что-то вроде изображения товара, или очередной фотки любимой собаки на телефон".

Кажется, если ИИ сделает ещё один шаг (возможно, даже на основе текстовых массивов, а не фотографий), и построит иерархию классов, то тогда все это начнёт работать реально просто и интуитивно

Почти как искать товары на али

Интересно было бы скормить описание произвольного алишного продукта (желательно прогнанное через переводчик туда-назад) и посмотреть на результат...

Я в своё время скармливал "kandinsky12b" в дискорде описания с Алиэкспресса. Он убедительно изображал "фотографии товаров с маркетплейса", иногда даже тех, что описаны. Даже какие-то подобия вотермарок иероглифами пытался изображать. Скорее всего там в обучающих наборах было много фотографий с маркетплейсов / описание товара.

И часто результат был лучше чем в случае человеческого описания.

Пример

"винтажное кольцо феи лягушки ручной работы, ювелирные изделия, кольцо феи лягушки, свадебный подарок для лучших друзей"

На самом деле проблемы нет. Надо просто понять какой логикой пользовались при создании обучающих данных, открыть промпты, отсортировать по частоте использования и вставлять подходящие к контексту. Чтобы заставить ИИ читать мысли придется использовать другие обучающие данные и прикрутить движок, который будет преобразовывать простую человеческую речь в облако тегов на основе культуры и языка, четкой классификации их в латентном пространстве и еще компенсировать это посредством уточняющих запросов.

Вот перенос стиля работает прекрасно, можно засунуть каляки-маляки, добавить описание и несколько раз прогнав получить хороший результат.
Тут дело в том, что фазовое пространство невообразимо огромное и сети легче опираться на картинку с текстом, чем на текст, который несет гораздо меньше информации.

Если отбросить проблемы с юзабилити, то лично я вижу проблему в том, что неумение сети выстраивать иерархию классов приводит к радикальному снижению размера обучающих выборок. Условно, в обучающей выборке есть 1 млрд профессиональных фотографий, но у них нет единого тега "professional photo". Вместо этого сеть обучается под тысячи классов вида "35mm", "photo taken by Nikon", каждый из которых будет иметь достаточно скромную выборку. И, вопрос в том, выйдет ли, даже перечислив их все в промпте (что, кажется, невозможно из-за физического ограничения на кол-во символов), получить на выходе тоже качество, как если бы сеть изначально понимала, что это один класс.

То есть, да, верю, что можно создать некплохой юзабилити, если сделать генератор промпта по человекочитаемому описанию, но, мне кажется более перспективным выстраивать иерархию классов еще на этапе разметки тегов

Проблема еще глубже.
Нейросетка обучается при помощи вдалбливания силой статистики и малая выборка некоторых классов вообще не позволяет их воспроизводить.
Далее, нет качественного кодирования абстракций. Да, кое-что оседает в трансформерах, но довольно жиденько и не системно. Взять к примеру руки, человек имеет представление о строении конечностей и может довольно достоверно их изобразить, а у сетки нет воображения, на вход даже опорные точки не подаются, в результате получаем лишние пальцы и перетекание одних предметов в другие. А с лицами намного проще, в обучающих данных был избыток мордашек, опорные точки имеют примитивную структуру и получаем очень качественные лица в окружении стремной мазни.

К слову, ещё задолго до появления сетей последнего поколения видел статью, где учёные смогли визуализировать образ каждого отдельного класса какой-то из тогдашней актуальной сети. И, к примеру, образ гантели шёл в комплекте с рукой, ибо мало было картинок в выборке с гантелью без руки.

Тогда меня ещё удивило, почему, никто (в виде костыля) не нагенерировал реально огромную выборку 3д рендеров очевидных понятий, чтобы разработчики нейросетей могли раз и навсегда вдолбить своей сети, что у людей должны быть симметричные конечности, что гантели идут в комплекте без рук, что у зданий, как правило, ритмичные и ровные окна и прямые углы, и так далее. Хотя, наверное, такой датасет только углубит проблемы, позволив разработчикам сетей в принципе не решать проблемы кодирования абстракций

Старая шутка на новый лад :)

Заходит сеошник в нейросеть, и говорит:

photo realistic, cinematic shot, cinematic grading + cinematic
post-processing + photo taken by ARRI, photo taken by Sony, photo taken
by Canon, photo taken by Nikon, photo Taken by Sony, Photo taken by
Hasselblad + Photorealistic, Photorealistic + Incredibly detailed,
sharp, detail + Meticulously designed environment + Professional
lighting, Shooting lighting + disco, bright, moody environment + 35mm,
50mm, 85mm , 100mm + lightroom, behance Photography, unsplash + long
Exposure - q 2 —v 4

Заходит сеошник в нейросеть,
а она ему как раз
А в ответ:
Так сойдёт?

(Реально самый первый результат от stable diffusion на этот запрос с припиской «woman»)

Вы не понимаете. Теперь в этом и состоит сакральное мастерство художника: не надо уметь рисовать — надо уметь составить описание. Не каждый сможет "натэгать" одухотворённую картину. Это же новый вид искусства, наверняка требующий таланта и невиданных ранее способностей. Появятся ли в этом свои новые гении? Будут ли продаваться их работы на Сотбис?

UPD: Может пора всё бросить к чертям и заняться? Ещё лучше конечно начать "продавать лопаты" — открыть соответствующие курсы для детей и взрослых, жаждущих карьеры в новой перспективной области. Верно ведь, Skill Factory?

UFO just landed and posted this here

Просто невероятно, какого прогресса за последние пару лет достигли эти технологии.

Мне показалось, что в большинстве случаев вместо круга нейросеть рисует кольцо.

Всегда интересно читать статьи про нейросети для генерации картинок(если в них много красивых картинок). Также мне, как человеку у которого с рисованием всё совсем плохо, приятно осознавать что возможно генерировать красивые картинки без навыков рисования.

Sign up to leave a comment.