Комментарии 4
Не смотря на то что сеть основана на Stable Diffusion, она все равно долговато генерит карты глубины (не изображения). Около 2к изображений могут предиктиться всю ночь. Ну и потом надо отлавливать галлюцинации, смотреть насколько они критичны для вашей задачи.
А, кстати, одно из преимуществ - то что изображения с лид.точками могут быть разного размера (но вместе одинакового). Например, другими сетками у меня были проблемы, что лид.точки нельзя просто так взять и растянуть (или ужать) под требуемый формат.
А насколько метрики Marigold-DC на бенчмарках сопоставимы с актуальными SOTA?
Получается, что в таком варианте расчет на то, что монокулярная карта глубины (предсказанная без учета данных с лидара) с точностью до линейного отображения равна истинному. Наверняка же иногда это не так, и случаются "относительные" ошибки в глубине, которые не исправить y=ax+b
Кажется, в ControlNet показывались какие-то примеры обратной задачи - генерации изображения по карте глубины.
Метрики, к сожалению не скажу, смотрела на рабочих данных. В любом случае, эта сеточка дала результаты даже визуально куда лучше, чем сети, основанные на CNN (смотрела PeNet, SemAttNet, NLSPN). Однако, данные тоже были специфичны, если сравнивать с KITTI на котором почти все обучались.
Да, такая проблема случается. Вероятно, можно попробовать такое уравнение для каждого пикселя по отдельности, а возможно, это приведет только к большим ошибкам или каким-то cлишком сложным регуляризациям матриц scale и shift 🤷♀️
Marigold-DC