Компания NVIDIA показала приложение GANverse3D, которое с помощью машинного обучения создаёт 3D-модель из одной фотографии. Разработчики компании продемонстрировали подробности, создав модель машины «КИТТ» из телесериала 80-х «Рыцарь дорог».
Приложение GANverse3D создали сотрудники исследовательской лаборатории NVIDIA AI в Торонто. Они рассчитывают, что данная технология поможет архитекторам, разработчикам игр и дизайнерам добавлять модели в свои сцены без опыта в моделировании и без увеличения бюджета.
Из-за того, что датасеты с изображениями объектов со всех сторон являются редкостью, большинство разработчиков тренируют свои программы на синтетических датасетах, например, ShapeNet. Но разработчики GANverse3D пошли другим путём: для создания датасета они использовали генеративно-состязательную сеть (GAN), которая генерировала изображения объекта с разных ракурсов.
На основе полученных изображений приложение GANverse3D собирало 3D-модель объекта с помощью фреймворка DIB-R для Omniverse. После прохождения обучения приложение GANverse3D научилось рендерить объёмную модель из одной-единственной фотографии с одним ракурсом.
Окончательная версия приложения прошла обучение на 55 тысячах автомобилей и превзошла другое приложение, обученное на датасете Pascal3D. Кроме этого, GANverse3D работает с текстурами создаваемой модели. Приложение анализирует освещение, модель и текстуру оригинальной картинки и на основе полученных данных строит полную 3D-модель. Далее художник может использовать Omniverse Kit и PhysX для доработки модели и добавления эффектов.
Автор проекта Джун Гао утверждает, что, так как его приложение тренировалось на реалистичных изображениях, вместо синтетических данных, то получаемые модели лучше подходят для настоящего окружения.
Исследование, которое лежит в основе GANverse3D представят на международной конференции Learning Representations в мае и на конференции Computer Vision and Pattern Recognition в июне.