Мое знакомство с диффузионными нейросетями началось недавно. Вообще я режиссер-документалист и сейчас снимаю фильм о музыке коренных народах Сибири.

Обычно, после съемок в фильме остаются огромные пробелы, которые по традиции закрываются архивными фото и видео. Но, когда на дворе век AI революции, а картинки в нейросетях рисуют даже домохозяйки, появилась идея воспользоваться возможностями машинного обучения и сгенерировать для фильма множество коренного Сибирского арта.
Однако, не все так просто. Перепробовав множество популярных сервисов, все как один вместо Алтайцев, Хакасов или Тувинцев рисовали что-то среднее между Индейцем и Монголом. Поэтому я плавно стал осваивать Stable Diffusion, в надежде когда-то создать и обучить свою модель по нужной мне тематике.
И тут выходит Kandinsky 2.1. Услышав о нем, первый делом попробовал запрос "Тувинский музыкант" и о чудо, результат получился наиболее аутентичным из всех.

Результат логичен, Midjourney обучался по западному интернету, где о наших коренных народах и не слышали, а Кандинский уже по нашему родному рунету. На этом можно было бы завершать статью, но дальше начались эксперименты.

Было множество различных обыденных генераций, не заслуживающих внимания. Пока не пришла мысль: «Кандинский лучше понимает нашу культуру. А насколько глубоко он может ее понять, прочувствовать закутки русской души. И как это будет выглядеть в сравнении с другими нейросетями?»
Дальше статья не имеет особой практической или художественной ценности, потому-что, думая о проявлениях той самой русской души, на ум пришли только мемы с волками. И понеслось.

На первый взгляд может показаться, что кривыми промтами я просто решил поиздеваться над Кандинским. Однако, взглянем на детали.
Что хотел сказать этой фразой автор? То, что быть друзьями это лучше чем быть просто знакомыми? Или...кхм.
Посмотрите на лицо волка слева - сразу читается эта таинственная улыбка. Этот хитрый взгляд. Эта недосказанность в действии. Кандинский четко передал ту самую "или", оставив замысловатую недосказанность автора. В отличие от более сдержанного и однозначного Midjourney.

Вопросы о том, кто мы в этом мире, для чего мы созданы и какова наша цель, мучают нас непрерывно. Обращаясь к классике русской литературы, ее «вечные темы» зачастую выражались через поиск «героя времени». И у каждой эпохи, у каждого писателя был свой герой - Печорин, Онегин, Обломов, Раскольников, Шариков и многие другие. Все очень разные, непохожие друг на друга, что только доказывает нашу многогранность и стремление найти себя.
Теперь взгляните на результаты генерации. Midjourney - это спокойный, сдержанный волк, немного надменный, где-то слишком уверенный в себе.
А генерация Kandinsky? Она прямо в точку передает наше внутреннее беспокойство, наше метание между противоположностями. Эти эмоции прямо говорят: я здесь ищу гармонии, слияния с бесконечно вечным, но нахожу лишь Шекспировское "Быть или не быть".

Последняя генерация, наверное, самая простая к осмыслению и говорит о нашей наивности. Потеряв тягу к поиску себя, к развитию своей духовности - мы примеряем на себя чуждые идеалы. Окружаем вещами, которые нужны лишь для насыщения своей гордыни. И как чутко подметили это нейросети: пока одно полушарие Земли производит бренды и внушает нам мнимую необходимость, другое их бездумно поглощает.
Разработчики Сбера хорошо потрудились над Кандинским, сделав его нейросетью с душой, характером и особым взглядом. Конечно, без огрехов не обошлось, однако, его быстродействие, интуитивно понятный интерфейс и возможность генерации на разных языках в скором времени сделают нейросети по-настоящему массовым продуктов для каждого.
В конце концов, Kandinsky 2.1 шикарный генератор будущих мемов.
