Получение морфируемой 3D-модели лица на основе фотографии в произвольном ракурсе

    Привет, Хабр! Представляю вашему вниманию перевод статьи «Learning 3D Face Morphable Model Out of 2D Images».

    3DMM

    Трёхмерная морфируемая модель лица (3D Morphable Model, далее 3DMM)  —  это статистическая модель структуры и текстуры лица, которая используются компьютерном зрении, компьютерной графике, при анализе человеческого поведения и в пластической хирургии.

    Неповторимость каждой черты лица делает моделирование человеческого лица нетривиальной задачей. 3DMM создётся для получения модели лица в пространстве явных соответствий. Это означает поточечное соответствие между полученной моделью и другими моделями, позволяющими выполнять морфирование. Кроме того, в 3DMM должны быть отражены трансформации низкого уровня, такие как отличия мужского лица от женского, нейтрального выражения лица от улыбки.

    3D morphable model

    Исследователи из Университета Мичигана предлагают новейший метод получения 3DMM лица, основанный на глубоком обучении. Используя высокую эффективность глубоких нейронных сетей для осуществления нелинейных отображений, их метод позволяет получить 3DMM на основе 2D изображения, снятого в произвольной обстановке.

    Более ранние подходы


    Обычно 3DMM получают с помощью набора 3D сканов лиц и набора 2D изображений этих же лиц. Общепринятый подход заключается в использовании редукции размерностей при обучении с учителем, которая выполняется с помощью применения анализа главных составляющих (Principal Component Analysis – PCA) на тренировочном наборе данных, состоящем из 3D сканов лиц и соответствующих 2D изображений. При использовании линейных моделей, таких как PCA, нелинейные трансформации и лицевые вариации не могут быть отражены в 3DMM. Более того, для моделирования точных 3D текстур лиц необходимо большое количество «3D информации». Таким образом, использование данного подхода оказывается неэффективным.

    Предлагаемый метод


    Идея предлагаемого метода заключается в использовании глубоких нейронных сетей или, более конкретно, свёрточных нейросетей (которые лучше подходят для рассматриваемой задачи и менее затратны в плане времени вычислений, чем многослойные перцептроны) для получения 3DMM. Кодирующая нейросеть (энкодер) принимает на вход изображение лица и генерирует параметры текстуры и альбедо лица, с помощью которых две декодирующих нейросети (декодеры) оценивают текстуру и альбедо.

    Как было указано ранее, линейная 3DMM имеет ряд проблем, таких как необходимость наличия 3D сканов лиц, невозможность использования изображений, снятых в произвольном ракурсе и ограниченная точность представления из-за использования линейной PCA. В свою очередь, предлагаемый метод позволяет получить нелинейную 3DMM модель на основе 2D изображений лиц высокого разрешения, снятых с произвольного ракурса.

    Планарное представление


    В своём подходе, исследователи используют развёрнутую 2D карту лица для представления его текстуры и альбедо. Они утверждают, что учёт пространственной информации играет важную роль, так как они применяют свёрточные нейронные сети, а фронтальные изображения лица содержат мало информации о боковых сторонах. Именно поэтому их выбор пал на планарное преставление.

    Три различных представления альбедо

    Три различных представления альбедо. (а) – 3D представление, (в) – альбедо как 2D фронтальное изображение лица, (с) – планарное представление.



    суммарное представление текстуры

    Планарное представление. x, y, z и суммарное представление текстуры.


    Архитектура нейросети


    Исследователи спроектировали нейросеть, которая, принимая на вход изображение, кодирует его в вектора текстуры, альбедо и освещения. Закодированные скрытые вектора для альбедо и текстуры декодируются с использованием двух декодеров, в качестве которых используются свёрточные нейросети. На выходе декодеры выдают блики лица, его альбедо и 3D текстуру лица. С использованием этих параметров, дифференцируемый рендеринг-слой генерирует модель лица посредством совмещения 3D текстуры, альбедо, освещения и параметров расположения камеры, полученных энкодером. Архитектура представлена на схеме ниже.

    Архитектура предлагаемого метода

    Архитектура предлагаемого метода для получения нелинейной 3DMM



    Получаемая устойчивая нелинейная 3DMM может быть использована для 2D наложения лиц и решения проблемы трёхмерной реконструкции лиц.

    image

    Схема рендеринг-слоя


    Сравнение с другими методами


    Рассматриваемый метод был приведён в сравнение с другими методами на примере следующих задач: 2D наложение, 3D реконструкция и редактирование лиц. Предлагаемый метод превосходит другие современные подходы для решения этих задач. Результаты сравнения представлены ниже.

    2D наложение лица


    Одно из приложений метода — наложение лиц, что должно существенно улучшить анализ лиц в ряде задач (к примеру, распознавание лиц). Наложение лиц – непростая задача, но рассматриваемый метод показывает высокие результаты при её решении.

    2D-face-alignment-results

    Результаты 2D наложения лиц. Невидимые пометки отмечены красным. Рассматриваемый метод отражает необычные позы, освещение и выражение лица.


    3D реконструкция лица


    Рассматриваемый метод также был приведён к сравнению на примере 3D реконструкции лица и показал выдающиеся результаты по сравнению с другими методами.
    Количественное сравнение результатов 3D реконструкции

    Количественное сравнение результатов 3D реконструкции



    Результаты 3D реконструкции в сравнении с методом Sela

    Результаты 3D реконструкции в сравнении с методом Sela и др. Предлагаемый метод сохраняет волосы на лице и другие особенности лица намного лучше, чем этот метод.



    Результаты 3D реконструкции в сравнении с VRN от Jackson

    Результаты 3D реконструкции в сравнении с VRN от Jackson и др. на примере известного датасета CelebA.



    image

    Результаты 3D реконструкции в сравнении с методом Tewari и др. Как видно, предлагаемый метод решает проблему сжимания лица при наличии различных текстур (таких как волосы на лице).



    Редактирование лица


    Обсуждаемый метод разбивает изображение лица на отдельные элементы и позволяет изменять лицо с помощью манипуляций над ними. Результаты работы данного метода при редактировании лиц были оценены на примере таких задач, как изменение освещения и добавление дополнительных элементов лица.

    Результаты добавления бороды

    Результаты добавления бороды. Первая колонка содержит исходные изображения, последующие – разные степени изменения бороды.


    Сравнение с методом Shu

    Сравнение с методом Shu и др. (вторая строка). Как видно, предлагаемый метод даёт более реалистичные изображения, и кроме того, лучше сохраняется идентичность лица.


    Вывод


    Предлагаемый метод, предположительно, получит широкое распространение, так как он позволяет получить точную и устойчивую 3DMM. Хотя 3DMM была широко распространена с момента своего создания, до появления рассматриваемого метода не существовало эффективного получения этой модели с помощью 2D изображений с произвольного ракурса.

    Предлагаемый метод использует глубокие нейронные сети в качестве аппроксиматора для устойчивого моделирования человеческих лиц со всеми их особенностями. Столь необычный способ получения 3DMM позволяет проводить манипуляции с изображением и может быть использован во многих задачах, некоторые из которых были представлены статье.

    Перевод — Борис Румянцев.
    Ads
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More

    Comments 4

      +2
      Пока этот метод годится разве только для поиска опорных точек и натягивания физиономии рандомного селебрити на лицо нетрезвого пользователя. Если присмотреться к результатам, видно, что 3d модели лиц на выходе сильно отличаются от исходного фото — глаза вообще не те, форма носа тоже теряется (сглаживаются горбинки и т.д.). Хотя, как вариант — можно создать ещё 3 набора сетей для уточнения формы глаз/носа/рта.
        +1
        Или наоборот, лица произвольного человека на актера. For only 4.99 per clip, watch your Facebook friends f*ck like bunnies! All you need is one picture with their faces.
        Но реально это будет работать, когда научатся подменять не только лица, но и то тела. Либо фотореалистично и правдоподобно их рендерить. Можно будет делать motion capture с порноактеров, и получать готовый выход по паре фоток из ВКонтакта. Интересная модель получается, останется только оценить юридические риски и риск запрета со стороны государства.
          0
          Полностью согласен. Берется какой-то левый mesh лица, натягивается на лэндмарки, алгоритмов распознавания которых — масса. Заявляется выдающийся результат. Сравнивается с каким-то кривым алгоритмом. Но даже этот кривой алгоритм дает минимальную похожесть, в отличие от заявленного в статье. Ребята, так дело не пойдет.
        0
        Лица имеют один тип, но для опознания не годятся. Интересно было бы посмотреть и почитать про то, какого качества получаются модели лиц, захваченные с помощью FaceID

        Only users with full accounts can post comments. Log in, please.