Как мы получили реалистичные лица с новых ракурсов с помощью нейросетей / Comments / Habr

Gotilar Jul 22 2021 at 22:22

NERF-ы почему круты:

Они позволяют симулировать view-dependent отражения (спекулярные), при всем притом что требуется всего лишь пара десятков фоток с разных углов. То есть это уже не чисто фотограмметрия, а восстановление radiance-field-а цельного для novel view. И поэтому можно после рассчитать качественно полноценную фотограмметрию, если стоит такая задача, с помощью оценки weighted-depth (уже есть такие работы про nerf) и численных методов оптимизации albedo, metallic, roughness параметров (или других параметров, в зависимости от того, каким распределением мы описываем отражательные способности поверхностей). Вы можете прогуглить текущие методы сканирования и заметить, что почти у всех у них проблемы с восстановлением спекуляра того же.
Теоретический способы работать с любой топологией геометрии (даже у треугольных мешей есть ограничения в этом плане)
Есть работы, показывающие поддержку динамический NERF с поддержкой трансформацией. А также поддерживающие восстановление radiance-field-а по фотографиям с большим числом ненужных динамических объектов поверх интересующей нас сцены (к примеру фотки туристических мест) при разной освещенности. То есть алгоритм с использованиями matting и дополнительных преобразований довольно стабилен. А это может позволить ребятам экспортировать анимации, к примеру, довольно качественно, и также как с фотограмметрией надрачивать уже в явном виде анимации численными методами понижая ошибку.
Также есть работы, показывающий как можно обучать NERF-ы когда мы позиции и трансформации ракурсов не знаем или знаем не точно (алгоритм пытается одновременно оптимизировать трансформационную матрицу).
Но время обучения конечно оставляет желать лучшего + время исполнения (хотя с последним уже можно добавиться около real-time-ых таймингов). Насчет первого плохо знаю, но наверняка какие-то методы типа MAML или же разделение сцены на ячейки, внутри каждой из которых доп фичи будут или же вообще отдельная нейронка (типа ACORN) должны помочь с этой проблемой, в особенности если датасеты однотипные (типа вот лица людей)

Comments 4

lab412 Jul 22 2021 at 21:24

так это же фотограметрия простая и без обучения... я и сам такое делал и у нас в студии такая комната была. мы и видео снимали даже а не только фото - потом покадрово строится 3D модель и получается 3D видео такое. нейросети то зачем тут если задача решена и куда меньшими усилиями и не требуется переобучение как у вас в конце указано...

matvey_twin Jul 22 2021 at 22:31

Весьма точный комментарий. Спасибо! :)

matvey_twin Jul 22 2021 at 22:41

Спасибо за комментарий!

Можете, пожалуйста, уточнить, о какой 3D модели и 3D видео идёт речь? Вы использовали Mutliview Stereo (MVS) (вроде Metashape, Colmap или Recap) и с него рендерели novel views?
По нашему опыту, рендер с помощью NeRF получался заметно лучше по сравнению с сырым MVS.
У NeRF много плюсов. Обратите внимание на комментарий выше, автор очень точно описал многие полезные моменты.
Что касается проблемы переобучения на фон, о которой вы упомянули, то в нашей статье мы написали как её решить (с помощью background matting).