Как стать автором
Обновить

Комментарии 11

куда современные технологии пришли

А что собственно современного или вообще интересного?

При движущейся (с соблюдением некоторых простейших условий) камере для пары снятых через некоторый временной интервал имеем стандартный случай случай стереопары. Далее — как обычно, feature matching, disparity map,…

Я для себя уже несколько лет снимаю такие стереопары одной камерой, более того — КАЖДЫЙ это может, просто с рук и чем угодно — телефоном, зеркалкой,… Даже если у вас СЕЙЧАС нечем смотреть — со внуками полюбуетесь и самому будет интересно.
Нет. Это не стерео пара.вам заведомо неизвестно ни расстояние между снимками, ни изменение ориентации. Тут нужно как минимум 3 снимка. Дальше для произвольной, некалиброванной камеры добавляется ещё куча параметров, которые нужно оценить и рассчитать.
Видео даёт множество «точек съёмки», создание 3D это уже обработка полученных данных. В астрофизике задачи и по сложнее бывают, когда смещение земли относительно наблюдаемого объекта стремится к нулю))
Самое первое приложение камеры от google добавляло очень приличный эффект боке как раз таким способом — при съемке телефон смещался на 5-10 см. Было это лет 5 или более назад, работало на очень слабом железе — так что в основе было что-то совсем простое. Это конечно не SLAM, но если цель делать фотоэффекты с монокулярной камерой — больше и не нужно. Алгоритмы глубины те же, что для мультикамер + есть промежуточные кадры — как следствие стереобазу можно варьровать, избежать затенения и получить более четкое разделение.
Класс. Для 2012 года прекрасно. То что я в 2010-2011 году запускал было сильно хуже.
Но согласитесь, что тот же «Consistent Video Depth Estimation» — неплохой прогресс с тех пор?:)
можно же еще реконструировать 3D только из одного 2D изображения, используя самообучающуюся нейронную сеть. То есть сначала создается 3D, потом с помощью трассировки лучей строится двумерная фотография этой модели из некоторой точки обзора. Затем она сравнивается со входным изображением.

Вот один из примеров. https://arxiv.org/abs/1807.09259
Ну, там не всегда трассировка. Есть напрямую сетки которые в воксельный объем проецируют. Только вот у таких задач есть одна проблема — не понятно зачем на практике оно.

На прошлом коллоквиуме новогоднем, который Лемпицкий устраивает, я общался с автором одного из State-of-art алгоритмов на тот период (к сожалению не помню как его звали, помню что из Германии группа). И у них это прямо проблема. Очень мало где реально нужны эти алгоритмы. Они смогли какую-то задачу придумать чтобы на практике попробовать, и это был большой прогресс.
Но на практике проще либо использовать нормальный 3D на вход, либо использовать какой-нибудь SLAM алгоритм. Либо, если объект фиксированный, то использовать известную 3д модель, и её натягивать.

Так что решил вообще не трогать этот сегмент.
В моей задаче нужно с помощью нейронной сети измерить фенотип растения, то есть измерить параметры. Желательно при этом также иметь трехмерную модель, чтобы демонстрировать ее биологам. И тут как раз планируется использовать уже созданную для конкретного растения 3д модель, натягивать ее на конкретную фотографию, и как раз из параметров этого подгона определять искомые величины.

В этой задаче как бы не обязательно подавать 3д на вход. Но честно говоря, мне кажется, что лаборатория хочет просто повыеживаться, и показать, смотрите, что мы можем не только решить поставленную биологами задачу, но еще и сделать это только с одного изображения, с монокамеры и без обучения. Чтобы было какое-то новшество еще и в сегменте компьютерного зрения. Аргументируется это тем, что дорого и долго делать по нескольку фотографий.
Боже. Вообще растения — самый треш для 3D. Даже для хороших сканеров.
Но если пробовать натянуть готовую модельку — то это наверное сильно проще. Мы часто для анализа параметров 3D объектов так делали. Но это сильно более стабильные объекты чем растения были.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий