lb35728 авг 2025 в 21:37

Определение положения объектов на изображении: как найти пространственные координаты объекта, используя OpenCV

26 мин

15K

РобототехникаPython * Программирование * ВидеотехникаОбработка изображений *

Из песочницы

+55

Комментарии 23

Daddy_Cool 28 авг 2025 в 21:58

Очень интересно!
Есть ли простой способ определять скорость объектов?

lb357 30 авг 2025 в 09:01

Спасибо за комментарий!

Для различных задач могут использоваться разные методы. В общем случае, описанном в статье, при наличии неподвижной откалиброванной камеры, первым на ум приходит наиболее простой вариант: найти $P_{c}$ и замерить текущее время на двух кадрах, а затем вычислить $V=\frac{|P_{c}'P_{c}''|}{\Delta t}$ (скорость равна расстоянию между координатами объекта на двух кадрах, делённому на прошедшее время между двумя кадрами; оно же $V=\frac{S}{t}$ ). Аналогично можно опираться не на $P_{c}$ , а на , например ограничив зону на изображении с заранее известным расстоянием в пространстве, как это делается на камерах контроля дорожного движения.

Однако данный метод рассчитывает не скорость в моменте, а среднюю скорость между кадрами, так что в некоторых прикладных задачах требуется расчёт ускорения, дополнительное предсказание движения/скорости объекта. Из-за этого же на результат может влиять количество кадров в секунду (FPS) и скорость обработки изображений.

Конкретно про ваш случай ответил в личных сообщениях.

ret77876 28 авг 2025 в 22:18

Отличная статья! А проводились/планируются ли эксперименты по исследованию погрешности определения координат объекта? И на самом деле кроме погрешности ещё интересны отклонения/шумы при разном нахождении маркера относительно оптического центра камеры.

lb357 30 авг 2025 в 09:53

Спасибо за комментарий!

Точные замеры погрешности не проводились/планировались, хотя потенциально это не плохая тема для будущей статьи.

В рамках подготовки данной статьи было выявлено (см. результаты решения частных случаев), что при нахождении точки с заданной $Z_{w}$ в среднем погрешность была ниже, чем нахождение той же точки в общем случае.

Также про оценку погрешности и в целом оптимальности различных решений задачи PnP существуют статьи:
A Consistently Fast and Globally Optimal Solution to the Perspective-n-Point Problem (2020) by G. Terzakis; M. Lourakis
Accurate non-iterative O(n) solution to the PnP problem (2007) by F. Moreno-Noguer; V. Lepetit; P. Fua

Mdm3 15 сен 2025 в 14:14

Погрешность сильно зависит от размера маркера и расстояния до него, разрешения камеры, что очевидно, а также доп. настроек алгоритма (например включение параметра субпиксельной точности при детекции AruCo маркера), точности калибровки камеры и точности соответствия реальных размеров распознанного объекта и переданных алгоритму для расчета. Также, если ваша камера или объект в движении, то будет играть роль выдержка камеры (смазанность движущегося объекта в кадре) и при наличии смазанности - тип затвора камеры (global shutter или rolling shatter).

Если используете один квадратный маркер, то будут проблемы определения перпендикуляра к маркеру, если смотреть строго с фронта. Отклонение по углу при взгляде сбоку будет на уровне 0.5 градусов, а в "фас" уже до 5 градусов.

Проводил экспериметы. Для двух маркеров размером 6х6 см точность сантиметровая на расстояниях до 2.5-3 метров, с камерой HD (1280х720). Дальше 3х метров маркер слишком мелкий для распознавания. Вот на видео один из экспериментов https://youtube.com/shorts/J3cVfUyGl9o?si=cRxSzjGsgyy25me1

Чтобы добиться уверенного позиционирования мне пришлось кроме перебора разных алгоритмов и настроек распознавания также обрабатывать результаты с помощью фильтра Калмана, без этого результаты были слишком шумными, особенно когда метка или камера в движении.

Как итог: между теорией и практическим внедрением этой технологии довольно большая пропасть. Но ничего сверх сложного здесь нет, просто отладка потребует времени и усилий.

Sergei2405 29 авг 2025 в 15:19

Однажды по не очень хорошим обстоятельствам познакомился с экспертами российского международного авиационного комитета (МАК - те самые, кто расследует авиационные катастрофы).

И они показывали презентацию про некоторые свои аспекты работы. Для расследования им необходимы параметры полета перед и в момент катастрофы (скорость, высота, направление, крен и тп). И в случаях с легко моторными или старыми самолетами, где нет черных ящиков у них проблемы с получением этих параметров.

В этих случаях они опираются на видеозаписи происшествий, если они конечно есть.

Первый случай, камера наблюдения в аэропорту записала проишествие. Эксперты с линейками измерили все ориентиры на земле, построили координатное пространство. Исправили "рыбий глаз" камеры, опираясь на габариты самолета, вычислили его параметры. Сказали, что это легко, хотя уже там математики было много.

Второй случай был сложнее, камера была в руках, и инцидент был записан с проводкой, т.е. оператор поворачивал камеру отслеживая самолет во время падения. Опять таки привязываясь к ориентирам на земле построили пространство, и в нем уже двигались модели самолета и модель камеры.

И третий случай, камера в руках, движется и снимает из самолета, через элюминатор. И вот только в этот момент, они прибегли к какой-то голливудской программе 3д рендеринга сцен...

lb357 30 авг 2025 в 20:03

Спасибо за комментарий! И правда не очень хорошие обстоятельства, хотя сама по себе задача определения параметров полёта самолёта по видео довольно интересная (и сложная).

Sergei2405 29 авг 2025 в 15:26

Ну а так, статья конечно огонь!

DungeonLords 29 авг 2025 в 16:09

Вам также может быть интересно,
Измерение расстояния до объекта и его скорости

lb357 30 авг 2025 в 20:25

Спасибо за комментарий! Рекомендуемая вами статья и правда интересная

SenseOptics 29 авг 2025 в 16:35

Ссылки не работают аффинное преобразование, не ролики с ютуба. Тема интересная

lb357 30 авг 2025 в 07:17

Спасибо за замечание! Ссылки исправил

SenseOptics 30 авг 2025 в 21:11

Спасибо! Это действительно полезная статья!

TimurZhoraev 29 авг 2025 в 18:48

В принципе можно восстановить объём сцены по дельте между кадрами, например, при движении монокуляра, в этом случае за счёт point flow +- можно оценить пространственное положение (при заданном поле зрения), плюс применение внешних гироскопа-акселерометра, позволяющих определить локальное перемещение. Насколько важно контрастное изображение для детектирования маркера а также образующего внешнего полигона, определяющего углы, например, в движении может быть эффект Rolling Shutter и смазывание, например, максимальная скорость детектирования при смещении объекта порядка десятков пикселей за один кадр.

lb357 30 авг 2025 в 20:48

Спасибо за комментарий!

Помимо гироскопа-акселерометра можно использовать кинематическую одометрию, например если камера установлена на мобильной платформе (роботе). И в целом существует множество методов "восстановления объёма" сцены по фотографиям передвигающейся камеры, в частности Visual SLAM (в различных реализациях)

funca 29 авг 2025 в 21:20

Чтобы использовать метод критично знать параметры камеры, с помощью которой осуществлялась съёмка. На практике это проблема, если попытаться сделать решение для широкой аудитории.

Например, современные телефоны имеют несколько объективов с разными характеристиками и используют различные алгоритмы цифровой коррекции изображения. Калибровка по шаблонам даёт разные результаты в зависимости от освещённости, заляпанности отдельных объектов и даже версии софта на телефоне.

Если попытаться аналитически определить параметры, используя идентификаторы, доступные через драйверы и техническую документацию, то можно столкнуться с погрешностями из-за того, что многие производители используют различное аппаратное обеспечение в устройствах одной и той же маркетинговой линейки. При этом с точки зрения драйверов они выглядят одинаково.

lb357 30 авг 2025 в 23:13

Спасибо за комментарий!

Если всё же доступна калибровка по шаблонам, то используя OpenCV, добиться качественных результатов вполне реально. Можно выбрать конкретную камеру (объектив):

cap = cv2.VideoCapture(CAM_ID)           # Создание объекта камеры
                                         # CAM_ID - id/path конкретной камеры

Настроить различные её свойства (см. документацию OpenCV о VideoCapture Properties), вроде фокуса, зума, экспозиции и других:

cap.set(cv2.CAP_PROP_AUTOFOCUS, 0)       # Отключение встроенной автофокусировки

cap.set(cv2.CAP_PROP_FOCUS, CAM_FOCUS)   # Мануальная фокусировка
                                         # CAM_FOCUS - уровень фокуса
                                         # Например может быть установлен
                                         # на значение, найденное
                                         # методом автофокусировки

Некоторые свойства, которые непосредственно влияют на изображение:

cv2.CAP_PROP_AUTO_EXPOSURE
cv2.CAP_PROP_EXPOSURE
cv2.CAP_PROP_AUTO_WB
cv2.CAP_PROP_WB_TEMPERATURE
cv2.CAP_PROP_GAMMA 
cv2.CAP_PROP_TEMPERATURE 
cv2.CAP_PROP_ZOOM

Останется сохранить установленные свойства для дальнейшего использования и провести калибровку камеры, после чего решение задачи будет идентично описанному в статье. Поскольку свойства сохранены для дальнейшего использования, то (по идее) параметры камеры не должны меняться.

Также широкая аудитория встречается с данной задачей достаточно редко. Как мне кажется, из задач близких к описываемой, чаще всего широкая аудитория встречается с дополненной реальностью (AR), для которой хоть и может использоваться OpenCV, но всё же имеется свой стек и свои технологии.

А узкая (специализированная) аудитория обычно имеет возможность использовать камеры без проблем с калибровкой.

Так или иначе хорошее примечание, спасибо!

TimurZhoraev 31 авг 2025 в 05:55

Кстати есть камеры, вернее даже объективы, с внешним управлением фокусного расстояния/диафрагмы/фокусировки по I2C/UART, в этом случае расстояние до объекта можно оценочно определить с использованием "сканирования" глубиной резкости.

funca 2 сен 2025 в 18:45

Также широкая аудитория встречается с данной задачей достаточно редко

Навскидку: линейка-дальномер как приложение для камеры, управление жестами с позиционированием в 3d, биометрия (где нужно понимать расстояние до отдельных точек на голове), спидометр для определения скорости объекта в камере. Про OpenCV все в курсе, попыток использовать много, - в сторах полно игрушек, - но для практического применения точность оставляет желать лучшего.

Настроить различные её свойства (см. документацию

Документация описывает возможности, да. Но в реальности не все параметры и настройки есть в драйверах конкретных устройств, а если и есть, то работают одинаково и как ожидается во всех версиях. Я про массовый рынок сейчас.

Ниша действительно в специализированных аппаратно-программных комплексах, где у вас есть полный контроль и понимание как работает и софт, и оборудование, в каких диапазонах меняются характеристики среды, и какова допустимая погрешность измерений.

lb357 3 сен 2025 в 04:44

Это так, увы...

TimurZhoraev 31 авг 2025 в 06:08

Для ускорения скорее всего придётся использовать Multiprocessing чтобы раскидать кадр(ы) по отдельным потокам, включая то что крутится на GPU, в основном используется блок shared memory, или отдельные потоки для пост-обработки объектов в цикле, но там можно столкнуться с производительностью Queue ввиду сериализации и задействованию GIL на определённых моментах, вроде как в 13-й версии Питона этот вопрос поставлен на повестку.

Mdm3 15 сен 2025 в 14:37

Классические алгоритмы cv достаточно быстрые. Поиск метки на HD (1280х720) кадре и расчет позиции в 3D пространстве у меня занимет около 10мс на десктопе (комп. 2023г) и ~30мс на миникомпьютере Orange Pi Max. Кроме распознавания в это время входит обработка результатов различным фильтрами (медианный, Калман и т.п.) и отрисовка HUD (вывод результатов на кадре и отображение кадра). GPU не используется, все на CPU. Для большинства риалтайм приложений этого достаточно.

niktor_mpt 31 авг 2025 в 13:06

Как зависит предельная точность определения координат объекта от параметров камеры (разрешение, фокусное расстояние и т.п.)

По-хорошему, нужно выдавать интервал, а не число. Ну или если понятен потребитель, то нечёткое число (вектор).

Правильно ли я понимаю, что для приведённого геометрического подхода лучше всего использовать длиннофокусные камеры с большой ГРИП?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий