Как стать автором
Обновить

В NVIDIA с помощью ИИ научились превращать 2D-фотографии в 3D-сцены

Время на прочтение4 мин
Количество просмотров20K

NVIDIA разработала Instant NeRF — нейромодель рендеринга, которая изучает 3D-сцену с высоким разрешением за секунды и может отрисовать изображения этой сцены за несколько миллисекунд.

Модель использует процесс, известный как инверсный рендеринг, с применением ИИ для определения поведения света в реальном мире, что позволяет исследователям реконструировать 3D-сцену из нескольких 2D-изображений, снятых под разными углами. 

В NVIDIA показали, что модель решает эту задачу почти мгновенно, что делает ее одной из первых, сочетающих сверхбыстрое обучение нейронной сети и быстрый рендеринг.

NVIDIA применила этот подход к технологии, называемой нейронными полями излучения, или NeRF. Реализация технологии в некоторых случаях достигает более чем 1000-кратного ускорения. Модели требуется всего несколько секунд, чтобы обучиться на нескольких десятках 2D-фотографий и данных о ракурсах камер, с которых они были сделаны, а затем она может визуализировать результирующую 3D-сцену в течение десятков миллисекунд.

Сбор данных для передачи NeRF немного похож на работу фотографа с красной дорожки, пытающегося запечатлеть наряд знаменитости со всех сторон: нейронной сети требуется несколько десятков изображений, сделанных с разных точек сцены, а также положение камеры каждого из них. Для сцены, в которой есть люди или другие движущиеся элементы, чем быстрее будут сняты эти кадры, тем лучше. Если в процессе захвата 2D-изображения слишком много движения, 3D-сцена, созданная искусственным интеллектом, будет размытой.

В сцене NeRF по сути заполняет пробелы, обучая небольшую нейронную сеть реконструировать сцену, предсказывая цвет света, излучаемого в любом направлении из любой точки трехмерного пространства. Этот метод может даже работать с окклюзиями — когда объекты, видимые на некоторых изображениях, блокируются препятствиями, такими как столбы на других изображениях.

В то время как оценка глубины и внешнего вида объекта на основе частичного представления является естественным навыком для людей, это сложная задача для ИИ. Создание 3D-сцены традиционными методами занимает несколько часов или больше, в зависимости от сложности и разрешения визуализации. Внедрение ИИ ускоряет работу. Ранние модели NeRF рендерили четкие сцены без артефактов за несколько минут, но на их обучение уходили часы.

Однако Instant NeRF сокращает время рендеринга на несколько порядков. Он основан на разработанной NVIDIA методике, называемой кодированием хэш-сетки с несколькими разрешениями, которая оптимизирована для эффективной работы на графических процессорах NVIDIA. Используя новый метод кодирования входных данных, исследователи могут добиться высококачественных результатов, используя небольшую и быструю нейронную сеть.

Модель разработана с использованием набора инструментов NVIDIA CUDA и библиотеки нейронных сетей Tiny CUDA. Поскольку это легкая нейронная сеть, ее можно обучить и запустить на одном графическом процессоре NVIDIA — быстрее всего она работает на картах с тензорными ядрами NVIDIA.

«Если традиционные 3D-представления, такие как полигональные сетки, похожи на векторные изображения, то NeRF подобны растровым изображениям: они плотно фиксируют то, как свет исходит от объекта или внутри сцены», — говорит Дэвид Любке, вице-президент по графическим исследованиям в NVIDIA. — «В этом смысле Instant NeRF может быть так же важен для 3D, как цифровые камеры и сжатие JPEG для 2D-фотографии, — значительно увеличивая скорость, простоту и доступность 3D-съемки и обмена».

Instant NeRF продемонстрировали на конференции NVIDIA GTC. NVIDIA Research воссоздала легендарную фотографию на Polaroid Энди Уорхола, превратив ее в 3D-сцену с помощью Instant NeRF.

Технологию, как сообщила компания, можно использовать для создания аватаров или сцен для виртуальных миров, захвата участников видеоконференций и их окружения в 3D или для реконструкции сцен для цифровых 3D-карт. Также ее можно применить для обучения роботов и беспилотных автомобилей. Наконец, модель позволит создавать  цифровые представления реальных сред, которые создатели могут изменять и использовать.

Исследователи NVIDIA изучают, как метод кодирования ввода NeRF может быть использован для ускорения решения множества задач ИИ, включая обучение с подкреплением, языковой перевод и алгоритмы глубокого обучения общего назначения.

В 2019 году NVIDIA создала ИИ-систему DIB-R (differentiable interpolation-based renderer) на основе ML-фреймворка PyTorch. Она способна преобразовывать двухмерные изображения в трехмерные объекты. Вся работа системы занимала менее 100 миллисекунд.

Летом 2021 года компания показала приложение GANverse3D, которое с помощью машинного обучения создает 3D-модель из одной фотографии. Для создания датасета использовалась генеративно-состязательная сеть (GAN), которая генерировала изображения объекта с разных ракурсов.

В апреле NVIDIA представила систему Omniverse для создания трехмерных виртуальных сред. Позднее она сообщила, что на одной из конференций этого года выступила цифровая копия гендиректора Дженсена Хуанга. Осенью компания добавила в Omniverse базовый аппаратный и программный движок, который позволит объединить виртуальные сообщества в альтернативную трехмерную вселенную.

Теги:
Хабы:
Всего голосов 9: ↑8 и ↓1+13
Комментарии3

Другие новости

Истории

Ближайшие события