Pull to refresh

Kandinsky 2.1 — лучший генератор мемов или нейросеть с душой?

Level of difficultyEasy
Reading time3 min
Views23K

Мое знакомство с диффузионными нейросетями началось недавно. Вообще я режиссер-документалист и сейчас снимаю фильм о музыке коренных народах Сибири.

Промт: Ким Чен Ын ловит волка
Промт: Ким Чен Ын ловит волка

Обычно, после съемок в фильме остаются огромные пробелы, которые по традиции закрываются архивными фото и видео. Но, когда на дворе век AI революции, а картинки в нейросетях рисуют даже домохозяйки, появилась идея воспользоваться возможностями машинного обучения и сгенерировать для фильма множество коренного Сибирского арта.

Однако, не все так просто. Перепробовав множество популярных сервисов, все как один вместо Алтайцев, Хакасов или Тувинцев рисовали что-то среднее между Индейцем и Монголом. Поэтому я плавно стал осваивать Stable Diffusion, в надежде когда-то создать и обучить свою модель по нужной мне тематике.

И тут выходит Kandinsky 2.1. Услышав о нем, первый делом попробовал запрос "Тувинский музыкант" и о чудо, результат получился наиболее аутентичным из всех.

Слева то, как видит "Тувинского музыканта" Midjourney, а справа - Kandinsky 2.1
Слева то, как видит "Тувинского музыканта" Midjourney, а справа - Kandinsky 2.1

Результат логичен, Midjourney обучался по западному интернету, где о наших коренных народах и не слышали, а Кандинский уже по нашему родному рунету. На этом можно было бы завершать статью, но дальше начались эксперименты.

Промт: Чело-медведо-волк-тигр-лев-орел-воин-доспехи-африка-снег (стиль "Цифровая живопись")
Промт: Чело-медведо-волк-тигр-лев-орел-воин-доспехи-африка-снег (стиль "Цифровая живопись")

Было множество различных обыденных генераций, не заслуживающих внимания. Пока не пришла мысль: «Кандинский лучше понимает нашу культуру. А насколько глубоко он может ее понять, прочувствовать закутки русской души. И как это будет выглядеть в сравнении с другими нейросетями?»

Дальше статья не имеет особой практической или художественной ценности, потому-что, думая о проявлениях той самой русской души, на ум пришли только мемы с волками. И понеслось.

Промт: Лучше иметь друга, чем друг друга, волк, классицизм.  Слева Kandinsky 2.1, справа Midjourney.
Промт: Лучше иметь друга, чем друг друга, волк, классицизм. Слева Kandinsky 2.1, справа Midjourney.

На первый взгляд может показаться, что кривыми промтами я просто решил поиздеваться над Кандинским. Однако, взглянем на детали.

Что хотел сказать этой фразой автор? То, что быть друзьями это лучше чем быть просто знакомыми? Или...кхм.

Посмотрите на лицо волка слева - сразу читается эта таинственная улыбка. Этот хитрый взгляд. Эта недосказанность в действии. Кандинский четко передал ту самую "или", оставив замысловатую недосказанность автора. В отличие от более сдержанного и однозначного Midjourney.

 Промт: Я может и не может, но хотя бы не я, волк. Слева Kandinsky 2.1, справа Midjourney.
Промт: Я может и не может, но хотя бы не я, волк. Слева Kandinsky 2.1, справа Midjourney.

Вопросы о том, кто мы в этом мире, для чего мы созданы и какова наша цель, мучают нас непрерывно. Обращаясь к классике русской литературы, ее «вечные темы» зачастую выражались через поиск «героя времени». И у каждой эпохи, у каждого писателя был свой герой - Печорин, Онегин, Обломов, Раскольников, Шариков и многие другие. Все очень разные, непохожие друг на друга, что только доказывает нашу многогранность и стремление найти себя.

Теперь взгляните на результаты генерации. Midjourney - это спокойный, сдержанный волк, немного надменный, где-то слишком уверенный в себе.

А генерация Kandinsky? Она прямо в точку передает наше внутреннее беспокойство, наше метание между противоположностями. Эти эмоции прямо говорят: я здесь ищу гармонии, слияния с бесконечно вечным, но нахожу лишь Шекспировское "Быть или не быть".

 Промт: Эту сумку мне волк купил, очки с бриллиантами волк купил. Инставолк Слева Kandinsky 2.1, справа Midjourney.
Промт: Эту сумку мне волк купил, очки с бриллиантами волк купил. Инставолк Слева Kandinsky 2.1, справа Midjourney.

Последняя генерация, наверное, самая простая к осмыслению и говорит о нашей наивности. Потеряв тягу к поиску себя, к развитию своей духовности - мы примеряем на себя чуждые идеалы. Окружаем вещами, которые нужны лишь для насыщения своей гордыни. И как чутко подметили это нейросети: пока одно полушарие Земли производит бренды и внушает нам мнимую необходимость, другое их бездумно поглощает.

Разработчики Сбера хорошо потрудились над Кандинским, сделав его нейросетью с душой, характером и особым взглядом. Конечно, без огрехов не обошлось, однако, его быстродействие, интуитивно понятный интерфейс и возможность генерации на разных языках в скором времени сделают нейросети по-настоящему массовым продуктов для каждого.

В конце концов, Kandinsky 2.1 шикарный генератор будущих мемов.

Разные запросы с Илоном Маском, Ким Чен Ыном и львами в цирке.
Разные запросы с Илоном Маском, Ким Чен Ыном и львами в цирке.

Tags:
Hubs:
Total votes 24: ↑9 and ↓15+1
Comments6

Articles