Нас окружают «невозможные» кубики Рубика / Habr

Подавляющее большинство изображений кубика Рубика — в иллюстрациях, принтах на одежде, мультфильмах, компьютерной графике и особенно в генерациях нейросетей — воспроизводят неправильные кубики. Чаще всего это невозможные в реальности комбинации цветов, реже к некорректным цветовым схемам добавляются нарушения геометрии и структуры кубика. Разгоняем эту тему в статье.

Структура кубика Рубика для чайников

Кубик Рубика — это механическая головоломка кубической формы, включающая 26 подвижных элементов (cubies), удерживаемых внутренним крестовидным или сферическим механизмом. Шесть центральных элементов вращаются только вокруг собственной оси. Восемь угловых и двенадцать рёберных элементов перемещаются при повороте слоёв, формируемых вокруг центрального элемента и состоящих из четырёх углов и четырёх рёбер. Всего у кубика по три слоя в каждой из трёх плоскостей. Поверхность кубика имеет 54 цветных квадрата (пластинки или наклейки), по девять каждого цвета. В собранном состоянии каждая грань окрашена в один цвет; шесть граней — шесть цветов.

В классической цветовой схеме противоположными цветами являются белый–жёлтый, синий–зелёный, красный–оранжевый. Центральные элементы не меняют положения в пространстве куба и зафиксированы относительно друг друга, поэтому, например, красный центр никогда не может быть напротив белого. Угловые элементы содержат по три цвета, рёберные по два, причём комбинации этих цветов не включают противоположные цвета. Так, не существует бело-жёлтого ребра, или красно-оранжево-синего угла.

Кубик перемешивается путем механического вращения граней в трех плоскостях. В перемешанном состоянии насчитывается 43 квинтиллиона возможных комбинаций. Если учитывать «нелегальные» комбинации, которые можно получить, переставляя элементы механически (например, «флипнуть» один угол без поворота грани или физически вынуть, перевернуть и вставить ребро), то число будет в 12 раз больше.

Типы «невозможных» кубиков Рубика

Первый тип ошибок самый неочевидный – когда все элементы кубика Рубика имеют правильные комбинации цветов, но куб перемешан не вращениями граней, а физически, например, когда куб развалился на части и его элементы собрали неправильно, или перевернули случайно или намеренно угол или ребро. Такие ситуации могут распознать только опытные куберы и обычно в процессе сборки, когда понимают, что какой-то элемент (или элементы) расположен неправильно, и собрать кубик без физического воздействия не получиться. При этом, распознать такую ошибку можно лишь осмотрев кубик со всех сторон. На изображении кубика, когда мы видим не более трех граней, распознать такую ошибку не представляется возможным.

Второй тип ошибок также связан с цветовыми схемами на кубике. Здесь может быть два варианта. Первый: нестандартная цветовая схема, что вполне допустимо, хоть и не совсем удобно для сборки тем, кто привык к классической цветовой схеме. Второй вариант касается некорректного изображения цветов. По такому изображению сразу видно, что кубик в привычном смысле невозможно собрать. Например, центральные элементы одиноковых цветов, или больше 6 цветов на кубике, или количество квадратов одного цвета на представленных гранях больше 9, невозможные сочетания цветов на угловых и реберных элементах. Именно эти ошибки наиболее массовые, и окружают нас практически везде, где присутствует образ кубика Рубика: на принтах футболок с aliexpress, в анимациионных фильмах разных лет и жанров, (например, WALL-E, Симпсоны, Фиксики, мультипликационный тележурнал «Кубик-Рубик») и даже на полотнах художников.

*Принты на футболках с «невозможными» кубиками Рубика*

*«Невозможные» кубики Рубика в анимации*

«Невозможный» кубик Рубика на орбитальной станции. Михаил Борисов. «Мы мирные люди», 1983. Выставка «Закат в сто сорок солнц», ГЭС-2, 2023-2024 гг.

При этом для большинства пользователей такие изображения не являются проблемой: визуального сходства достаточно — «похоже на кубик», значит, «кубик». Ошибки (особенно в цветовой структуре, когда геометрия не нарушена), как правило, заметны лишь куберам, для которых они становятся своего рода триггером.

Третий тип ошибок, когда к нереалистичным цветовым сочетаниям добавляются невозможные геометрические формы, особенно характерен для изображений, сгенерированных нейросетями. Геометрические галлюцинации на тему кубика Рубика заметны не только специалистам, но и обычным людям, которые понимают, что в сгенерированном изображении присутствуют лишь некоторые атрибуты кубика Рубика: похожие цвета, сетчатая структура, кубическая форма. Но практически любой человек скажет, что это изображение так же нереалистично, как неестественно выглядит рука с шестью пальцами. Хотя, в отличие от синдрома шести пальцев, для многих обывателей проблема «невозможного» кубика Рубика не является проблемой как таковой.

*«Невозможные» кубики Рубика, сгенерированные нейросетями (Mijorney, ChatGPT, CigaChat, Алиса AI, Sora 2)*

Нужно ли решать задачу «невозможного кубика Рубика»?

На первый взгляд этому можно не придавать значения. И решение задачи генерации правильного кубика Рубика может восприниматься только как развлечение для гиков кубинга.

Современные нейросети оптимизированы под визуальное сходство и узнаваемость образа, а не под соблюдение дискретных структурных ограничений, которые есть у кубика Рубика. В этом смысле нейронки действуют в режиме «я художник – я так вижу»: создают внешне узнаваемый объект и не озадачиваются фактчекингом, доверяя только своей насмотренности.

Отсюда возникает вопрос: способны ли современные нейросети в принципе гарантировать корректность объектов с дискретными правилами, а не только визуальное правдоподобие? Кубик Рубика в этом контексте кажется показательным примером: простая форма, строгие правила, конечное пространство состояний, относительно лёгкая проверка корректности. При этом «все знают», как он выглядит, но почти никто не знает правил его устройства. В некотором смысле это «тест Тьюринга» для образа. Если модель не способна корректно сгенерировать кубик Рубика, возникает сомнение, сможет ли она надёжно генерировать более критичные объекты — электрические схемы, молекулы, медицинские изображения, инженерные детали и т.д.

В этой связи я вспомнил момент из фильма «Старик Хоттабыч», где джин создаёт таксофон «на совесть, из цельного куска драгоценнейшего мрамора», но совсем нефункциональный.

Аналогичным образом нейросеть может генерировать эстетически убедительные изображения, не понимая их внутренней структуры, а следовательно, допуская ошибки в важных «мелочах». Вероятно, в перспективе изображения объектов, обладающих формальными правилами, должны генерироваться со строгим учётом этой структуры, возможно с использованием детерминированных или гибридных модулей ИИ.

Если у вас есть понимание того, как заставить, например, Алису или GigaChat, генерировать правильные кубики Рубика, дайте знать =]