Здравствуйте, уважаемые читатели!
В этой статье я хотел бы привести простой пример методологии, которую использую лично я для оценки возможностей нейросетей-художников, а также для работы с ними.
В комментариях к статье “Художественные приемы и профессиональные термины для создания изображений с ИИ. Всё, что нужно знать”, один читатель очень точно подметил следующий момент (язык и синтаксис оригинала сохранён):
И я с ним полностью согласен, ведь язык (как, к примеру спорт или эндокринология) – это крайне динамично развивающаяся структура и область знания. Достаточно привести буквально несколько примеров заимствований-руссицизмов в английском языке, которые проникли в туда относительно недавно:
Dacha (дача): Загородный дом или коттедж, часто используемый для отдыха.
Borscht (борщ): Традиционный суп из свеклы и других овощей.
Mammoth (мамонт): Используется для обозначения чего-то очень большого.
Sputnik (спутник): Первый искусственный спутник Земли, запущенный СССР.
Bratva (братва): Используется для обозначения русской мафии или организованной преступности в целом.
Семантическое влияние:
Некоторые английские слова приобрели новые значения под влиянием русского языка. Например, слово “comrade” (товарищ) изначально означало просто “компаньон” или “друг”, но в XX веке оно приобрело политический оттенок, связанный с коммунистической идеологией.
Я прошу у читателя прощение за то, что немного отошел от темы. Безусловно, как вы уже поняли, речь пойдет о связи языка с работой ИИ. Все мы, интересующиеся темой развития нейросетевых технологий, наблюдали насколько взрывным по своему характеру был рост возможностей ИИ одновременно во всех направлениях, в связи с чем, как уже было замечено выше по тексту появился своего рода новый язык – средство написания наиболее точных и при этом эффективно трансформирующихся в генерируемые изображения текстовых запросов. Всё это возникло по щелчку пальца, в исторической перспективе развития науки не мгновенно, но даже несколько быстрее.
Основываясь на представленном выше коротком вступлении, применительно к ИИ-генераторам изображения я хотел бы взять на себя смелость ввести в обиход совершенно новый и, при этом, как мне кажется, достаточно говорящий термина “Строка бога”.
Сейчас ни для кого не секрет, что на уровне рядовой пользователь-нейросеть в большинстве случаев общение происходит посредством текстовых запросов – промтов – в которых пользователь дает краткое описание задачи, а нейросеть затем с большим или меньшим успехом осуществляет её реализацию.
С помощью промтов генерируются текстовые ответы, изображения, музыка, расчеты и пр.
Самое время дать определение “Строки бога” – это такой текстовый запрос к нейросети-генератору изображений, который позволяет, не меняя его содержания и повторяя неограниченно количество раз, каждую итерацию взаимодействия с нейросетью получать вариативные и при этом высококачественные (в плане художественной составляющей) изображения, соответствующие заявленной теме. Таким образом, раз за разом повторяя строку бога, пользователь будет получать генерат, который с одной стороны, решает поставленную задачу типа разработки значительного количества изображений, а с другой стороны, немало “доставляет” (простите за сленг), т.е. вызывает эстетическое удовольствие при просмотре результатов каждой итерации процесса.
Безусловно, на текущий момент уже было сказано достаточно общих слов, а значит давно пора перейти к практической реализации идеи и продемонстрировать работу реальной строки бога.
И вот я задаюсь вопросом, “Скольких изображений, созданных с помощью строки, будет достаточно для того, чтобы доказать, что на концептуальном уровне данный термин вообще имеет право на существование?”
Десять изображений? Двадцать или тридцать? Всё это очень мелко… Думаю, сто работ – это необходимый минимум, с которого можно начинать разговор о возможностях…
Итак (барабанная дробь), уважаемые читатели, позвольте представить вам строку бога (текст ниже курсивом), которая нещадно мной эксплуатируется в https://www.bing.com/images/create/
Full-body highly detailed and realistic photograph depicting "The breadth of all fields, The depth of all seas and Height of clouds" in 8k resolution, Nikon lens
Переведу лишь сам смысл без технических деталей, необходимых для пост-доработки изображения - “Ширина всех полей, глубина всех морей, высота облаков”.
С помощью заявленной строки я создал коллекцию “100 ликов Господа”, (в коллекции их, как заявлено в названии, 100) которая размещена в онлайн-картинной галерее Artmajeur.
Содержание строки мне в своё время подсказал трек Луна – Осень (Phylaxis remix). Это, собственно, строчка из указанной песни.
Чтобы не утомлять читателя серией врезок медиафайлов я сделаю один коллаж, строго из изображений, которые были получены с помощью представленной выше “строки бога”.
Думаю, 9 картинок хватит. Изображения на коллаже – это генерат, не попавший в коллекцию “100 Ликов Господа” по тем или иным причинам, и первое место в перечне оснований для отбраковки уверенно и уже очень давно занимают… пальцы (второе место – глаза). Эти непростые человеческие пальцы, которые нейросети пока не научились рисовать идеально.
Каковы пределы возможностей строки бога в Bing? Это очень ёмкий инструмент.
Я обязан отметить, что при достаточно большом числе итераций в генерате обнаруживаются сходные мотивы, стили, однако, если говорить глобально, концепция строки бога работает и продолжает “доставлять” раз за разом.
Теперь позвольте перейти к второй заявленной теме, а именно “лакмусовой бумажке для ИИ”. Суть данной концепции, как и выше, предельно простая, однако, с моей точки зрения, она достаточно полезна!
Суть “лакмусовой бумажки для ИИ” в следующем. При постоянно растущем (если не сказать стремящемся к бесконечности) числе ИИ-генераторов изображений необходимо найти ту, которая проявит наивысший уровень качества, реализации абстрактных идей, а также сможет наиболее эффективно понять или даже превзойти замысел автора текстового запроса.
В соответствии с этим, авторам предлагается самостоятельно создать для себя по возможности простейший (без используемых в Midjourney дополнительных параметров типа степени рандомизации “--c 10” или глубины стилизации “--s 50”) текстовый запрос-промт на максимально абстрактную тему. Почему он должен быть максимально коротким и простым? Чтобы быть универсальным и давать пользователю возможность, не изобретая дополнительные средства и не усложняя текст первоначального промта, применять его в любой нейросети-генераторе изображений. Почему абстрактная тема? Всё просто – так проверяется его “внутренняя муза”, электронное воображение, если хотите, душа…
Зачем вообще нужна “лакмусовая бумажка для ИИ”? Чтобы сэкономить бесценное время. Как я уже говорил выше, число ИИ-художников постоянно растет, их настройки регулярно усложняются,
разбираясь во всем этом многообразии можно легко потеряться, сбиться с мысли, уйти в пробы возможностей различного рода подключаемых моделей, а по факту, не получить в генерате ничего
стоящего. Даже день работы - это иногда бесценная вещь. Тем более, что именно в этот день при работе с правильной нейронкой вы могли натолкнуться на нечто поистине бесценное.
В качестве “лакмусовой бумажки” для ИИ я использую 2 промта:
The afterlife
Modern priest of the war cult
Отчасти представленная информация перекликается с идеями, изложенными в этой статье на Хабре. Там автор тоже сравнивает различных ИИ-художников.
Я пользовался концепцией “лакмуса” порядка 1,5 лет, проверяя ее на MidJourney, Leonardo.AI, Adobe Firefly, Copilot Designer (Bing Image Creator на платформе DALL-3), Maze.Guru и еще несколькими менее известными ИИ-генераторами.
Не буду утомлять вас картинками, просто скажу, что за все эти полтора года ни одна из нейросетей даже близко не смогла повторить тот уровень понимания замысла, который продемонстрировала уже старинная (на тот момент, если не ошибаюсь, то 3 версия, MidJourney).
Просто посмотрите образцы, ставшие для меня эталонными.
1. The Afterlife (изображения ниже созданы 1 и 29 сентября 2022 г. соответственно)
2. Modern priest of the war cult (изображения ниже созданы 29 сентября 2022 г.)
Хочу сказать, что мое мнение относительно художественной и смысловой ценной всех представленных изображений крайне субъективно. Безусловно, у вас есть своё. Буду рад услышать его в комментариях!
Подводя итог, уважаемые читатели, желаю каждому из вас, в особенности тем, кто занимается ИИ-творчеством, найти свою “строку бога”.
Честно говоря, на ранних этапах работы с нейросетями, я уже настолько привык к получению нового, невероятно качественного визуального материала, что не мог провести и дня без генерации новых изображений (MidJourney, а затем Copilot Designer). Процесс был прямо как цифровой наркотик какой-то, ей богу…
P.S. С появлением ИИ-композитора UDIO, строка бога теперь будет работать не только для генераторов изображений, но и музыки (включая тексты песен, вокал).
Несмотря на то, что UDIO пока находится на стадии бета-тестинга, ее возможности уже в разы выше всего, что я пробовал до этого.
Чуть позже выпущу статью по ИИ-композитору UDIO с живыми примерами.
Искренне ваш,
А.П.