Благодаря фотошопу и более простым фильтрам для улучшения портретов каждый может создать лучшую версию себя. С коррекцией фигуры всё несколько сложнее: это требует более глубоких умений в области ретуши. Впрочем, уже совсем скоро можно будет добавить мускулов или убрать последствия ночных дожоров за пару секунд.

Новое исследование академии Alibaba DAMO предлагает автоматически улучшать фигуру на фото с помощью искусственного интеллекта. Это не самое популярное направление в сфере компьютерного зрения, которое в настоящее время больше занимается манипуляциями с лицами, такими как дипфейки и редактирование лица на основе GAN. Однако спрос на него явно есть — в этих ваших инстаграмах полно людей, желающих выглядеть лучше.

Нейросеть в первую очередь оценивает положение костей скелета. Это позволяет справиться с основной проблемой систем синтеза и редактирования изображений во время концептуализации и параметризации изображений тела. Появляется возможность достичь хотя бы того уровня детализации, который позволяет выполнять осмысленное и выборочное редактирование.

В конечном итоге система позволяет пользователю устанавливать параметры, которые могут сделать тело стройнее или визуально увеличить мышечную массу людей, которые сфотографированы в полный рост или до середины бедра, а также выполнить преобразования на участках тела в одежде или без одежды.

Цель работы — автоматизировать процессы ретуши, на которые у фотографов и ретушёров, работающих в СМИ, сфере моды, в рекламе и т.п., уходит много времени и сил.
Сейчас подобные преобразования осуществляются методами «деформации» в Photoshop и других графических редакторах, причём чаще всего — для корректировки изображения женщин. Поэтому пользовательский набор данных для обучения нейросети в основном состоит из изображений женщин разнообразных возрастов, рас (африканцы: азиаты: европеоиды = 0,33: 0,35: 0,32), поз и в разной одежде.
Разработка набора данных
Как это обычно бывает с системами синтеза и редактирования изображений, архитектура проекта требовала индивидуального набора обучающих данных. Авторы поручили трем фотографам произвести стандартные манипуляции в Photoshop с подходящими изображениями с сайта стоковой фотографии Unsplash, в результате чего был создан набор данных под названием BR-5K*, состоящий из 5000 высококачественных изображений с разрешением 2K.
Поскольку фреймворк вообще не работает с лицами, они были размыты перед включением в набор данных.
Исследователи подчеркивают, что цель обучения на этом наборе данных состоит не в том, чтобы создать некий общий идеал внешности, а скорее в том, чтобы ИИ понял основные принципы профессионального редактирования фигуры на фото.
Архитектура и основные концепции
Рабочий процесс системы построен следующим образом. На входе подаются портреты с высоким разрешением. Далее происходит понижение разрешения до более низкого, с которым могут справиться имеющиеся вычислительные ресурсы. Происходит извлечение предполагаемого положения костей скелета (второй рисунок слева на изображении ниже), а также полей сродства частей (PAF), которые были разработаны в 2016 году Институтом робототехники Университета Карнеги-Меллона (см. видео ниже).
Поля сходства частей помогают определить ориентацию конечностей и общую связь с полной структурой скелета, предоставляя новому проекту дополнительный инструмент внимания/локализации.

Несмотря на их кажущуюся нерелевантность по отношению к внешнему виду тела, карты скелета полезны для направления окончательных трансформационных процессов на части тела, подлежащие изменению (плеч, ягодиц и бедер).
После этого результаты передаются в систему Structure Affinity Self-Attention (SASA)

SASA регулирует согласованность генератора потока, который подпитывает процесс. Результаты затем передаются модулю деформации (второй справа на изображении выше). Этот модуль применяет преобразования, полученные в результате обучения нейросети.

Выходное изображение впоследствии повышается до исходного разрешения 2K, при этом используются процессы, не отличающиеся от стандартной архитектуры дипфейков 2017 года, из которой выросли такие популярн��е пакеты, как DeepFaceLab. Процесс повышения частоты дискретизации также распространен в средах редактирования GAN.
Сеть внимания для схемы смоделирована на основе Compositional De-Attention Networks ( CODA ), которая была результатом академического сотрудничества США и Сингапура в 2019 году с Amazon AI и Microsoft.
Тесты
Фреймворк был протестирован с использованием предыдущих, основанных на потоках методов FAL и Animating Through Warping ( ATW ), а также архитектур преобразования изображений Pix2PixHD и GFLA с SSIM, PSNR и LPIPS в качестве показателей оценки.

Исходя из этих показателей, новая система превосходит прошлые архитектуры.

В дополнение к автоматическим метрикам, было проведено пользовательское исследование (последний столбец таблицы результатов), где 40 участникам задали по 30 вопросов, случайно выбранных из пула в 100 вопросов. Вопросы касались изображений, полученных с помощью различных методов. 70% респондентов оценили новую технику как более «визуально привлекательную».
Проблемы
Пока проект ограничивается изменением самого тела, в нём не реализована какая-либо техника рисования, которая могла бы восстановить фон, неизбежно деформируемый при коррекции фигуры.
Однако исследователи предполагают, что матирование портрета и смешивание фона с помощью текстурного вывода могут тривиально решить проблему восстановления окружающих объектов.

Что ещё интересного есть в блоге Cloud4Y
→ Вирусу Микеланджело — 30 лет
→ Сделайте Linux похожим на Windows 95
→ Как не позволить техническому долгу одолеть вас
→ WD-40: средство, которое может почти всё
→ 30 лучших Python-проектов на GitHub на начало 2022 года
Подписывайтесь на наш Telegram-канал, чтобы не пропустить очередную статью. Пишем только по делу.
