Выглядит круто и примерно понятно…
Но вопрос сразу… а как они фон за объектом так качественно порой генерят? На некоторых демо видно, что там пачи с кусков рядом, но вот на видео с трубой, уж как-то слишком идеально тучи и листва восстановлены… или я что-то упустил?
Обратите внимание на плагин Resynthesizer к GIMP. Если погуглить можно найти собранную 1.x версию.
У автора есть публикация на эту тему.
Спустя много лет это добавили в фотошопе под название Content-Aware Fill. Работает не в 1:1 как Resynthesizer, где-то лучше где-то хуже чем он.
Мне больше работа Resynthesizer нравится.
Подозреваю, что попытки оцифровать модель человека с фотографии будут давать крайне забавную картинку из-за работы алгоритма угадывания текстур. Например, сфотографированный со спины человек окажется существом без лица, но с двумя задницами.
И сразу нашёл, куда применить: в соседней вкладке Google Street View и аккуратные параллелепипеды-дома, которые так и просятся быть оцифрованными. И наступит золотой век без переходов между локациями; один сплошной открытый мир.
Да чего там программу: я свой мозг натравил на вторую картинку, и при перемещении взгляда влево-вправо прямо-таки ощущаю, что где-то посередине изображения система распознавания образов выполняет недопустимую операцию и закрывается.
Какие только извращения не придумают, лишь бы не использовать фотометрию из нескольких фотографий или стерео. Хотя карту глубины построить из стереофото — расплюнуть (photosynth, pmvs, cmvs)
Получение 3D объекта по 1 фото