Исследователи ML-подразделения Apple представили модель машинного обучения LiTo, которая восстанавливает 3D-объекты по одной фотографии и сохраняет сложные визуальные эффекты, включая блики, отражения и изменения внешнего вида материала под разными углами.

Авторы работы отмечают, что большинство нейросетей для генерации 3D-моделей нацелены на точную передачу геометрии. Даже если модель умеет создавать текстуры, то она работает только с «плоскими» цветами поверхности и плохо понимает, как меняется внешний вид объекта в зависимости от освещения и угла обзора.
Эту проблему решает нейросеть LiTo. Модель машинного обучения кодирует в латентном пространстве сразу геометрию и то, как меняется внешний вид объекта. Нейросеть сначала обучили генерировать 3D-объекты, а после, с помощью сжатия случайных выборок светового поля поверхности в компактный набор латентных векторов — восстанавливать визуальные эффекты.

Работу LiTo сравнили с нейросетью TRELLIS. Apple отмечает, что LiTo генерирует более качественные 3D-объекты с высоким уровнем точности относительно входного изображения. Нейросеть планируют использовать для создания ассетов и более быстрого переноса реальных объектов в цифровые 3D-модели.

