Как стать автором
Обновить

Комментарии 4

НЛО прилетело и опубликовало эту надпись здесь

Не смотря на то что сеть основана на Stable Diffusion, она все равно долговато генерит карты глубины (не изображения). Около 2к изображений могут предиктиться всю ночь. Ну и потом надо отлавливать галлюцинации, смотреть насколько они критичны для вашей задачи.

А, кстати, одно из преимуществ - то что изображения с лид.точками могут быть разного размера (но вместе одинакового). Например, другими сетками у меня были проблемы, что лид.точки нельзя просто так взять и растянуть (или ужать) под требуемый формат.

А насколько метрики Marigold-DC на бенчмарках сопоставимы с актуальными SOTA?

Получается, что в таком варианте расчет на то, что монокулярная карта глубины (предсказанная без учета данных с лидара) с точностью до линейного отображения равна истинному. Наверняка же иногда это не так, и случаются "относительные" ошибки в глубине, которые не исправить y=ax+b

Кажется, в ControlNet показывались какие-то примеры обратной задачи - генерации изображения по карте глубины.

Метрики, к сожалению не скажу, смотрела на рабочих данных. В любом случае, эта сеточка дала результаты даже визуально куда лучше, чем сети, основанные на CNN (смотрела PeNet, SemAttNet, NLSPN). Однако, данные тоже были специфичны, если сравнивать с KITTI на котором почти все обучались.

Да, такая проблема случается. Вероятно, можно попробовать такое уравнение для каждого пикселя по отдельности, а возможно, это приведет только к большим ошибкам или каким-то cлишком сложным регуляризациям матриц scale и shift 🤷‍♀️

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации