Mixiw 4 апр 2024 в 06:32

Рисуем с нейросетями: Есть ли у ИИ-художника свой стиль?

Простой

2 мин

2.1K

Блог компании X5 TechОбработка изображений*Графический дизайн*ДизайнИскусственный интеллект

Мнение

Привет, Хабр! Я – Михаил Суворов, ведущий дизайнер коммуникаций в X5 Tech. В статье я ставлю эксперименты над ИИ, пока у них нет возможности “дать сдачи” человеку. Если серьёзно, то проверим гипотезу, может ли нейросеть, генерирующая изображения, иметь собственный “авторский стиль”.

Внутри каждой из txt-2-img нейросетей есть модель, обученная на своем датасете. Если модель удачная, то и генерации будут получаться качественными, красивыми, соответствующими запросу. Разумеется, посмотреть, что представляет из себя модель, на каком датасете она обучена, не получится – это коммерческая тайна любого из продуктов, о которых я буду писать ниже.

И всё-таки, попробуем определить, где лучше генерировать изображения, хотя бы по факторам красоты/соответствия запросу.

Будем исходить из того, что в каждом из продуктов, который участвует в наших экспериментах, есть большие или меньшие веса для определённых изображений. То есть она предрасположена выдавать в результатах генераций следы тех изображений, которых или больше в датасете или которые имеют больший вес. Лучше всего эту предрасположенность называть ёмким английским словом “bias”. Это можно сравнить с “авторским стилем” художника, хотя, конечно, ИИ недоступно понимание стиля, это человеческая интерпретация.

Проведём два эксперимента, попробуем найти bias, который добавляется к каждому вашему запросу, желаете вы того или нет.

В обоих экспериментах мы сравним результаты одинаковых запросов из разных продуктов. Всего будет по 4 генерации, никаких изменений между ними нет.
В Midjourney и Designer от Bing (на базе DALL-E 3) мы будем вводить текст запроса на английском, в Lumenor.ai и Шедеврум от Яндекса – на русском. Для Midjourney используется v.6 –s 50, для Lumenor – style RAW. DALL-E 3 и Шедеврум не дают точных настроек.

Эксперимент 1

Задаём максимально нейтральные токены. То, что можно попросить любого человека нарисовать на бумаге карандашом, и это займёт не много времени (в конце концов, ладонь можно и обвести).

Эксперимент 2

Пробуем запутать ИИ, отправляя нестандартный запрос. Если попросить сделать то же самое человека, он без труда вас поймёт. В отличии от ИИ, как мы убедимся, посмотрев на результаты. Но мы оцениваем сейчас стиль изображений.

Можно ли сказать, что у нейросетевых художников есть “свой стиль”?

Каждая из четырёх рассмотренных нейросетей – Midjourney, Designer от Bing (на базе DALL-E 3), Lumenor.ai и Шедеврум от Яндекса – обладает своим подходом к генерации изображений. Этот "стиль" проявляется через детализированность изображений и через предпочтения к определённым цветовым схемам, что позволяет говорить о наличии некоего "авторского стиля" у ИИ.

Midjourney и Lumenor особенно выделяются своей склонностью к созданию изображений с выраженным bias, что влияет на детализацию и цветовые схемы. В то время как генерации от Bing и Шедеврума менее подвержены этим предвзятостям, хотя их всё же можно отличить по некоторым характеристикам.

Сейчас мы становимся свидетелями гонки между различными txt-2-img продуктами за внимание пользователей, переходя от этапа соревнования за создание наиболее реалистичных изображений к новому этапу. Продукты стремятся не просто к реализму, но и к эстетической привлекательности в своих генерациях, корректируя свои модели для достижения более красивых результатов.

Как вы думаете, может ли bias ИИ-художника считаться настоящим художественным стилем, сравнимым с человеческим творчеством? Напишите в комментариях.

Хабы:

Рисуем с нейросетями: Есть ли у ИИ-художника свой стиль?

Эксперимент 1

Эксперимент 2

Можно ли сказать, что у нейросетевых художников есть “свой стиль”?

Публикации

Информация