Как стать автором
Обновить

Бинокулярное зрение: машинное и естественное

Время на прочтение3 мин
Количество просмотров7.1K

Несколько лет назад в технологической среде существовал спор о том, какая технология машинного зрения наидет свое применение на практике для робомобилей: основанная на лидарах или опирающаяся исключительно на камеры.

Сейчас начинает применяться третья технология, которая возможно в будущем вытеснит первые две. Это технология бинокулярного глубинного машинного зрения. В последнее время на основе этой технологии начало появляться много интересных экспериментов и даже продуктов, о которых я постараюсь кратко рассказать в этой статье.


Бинокулярное (стереоскопическое) зрение позволяет дронам строить 3д карту окружающего пространства
Бинокулярное (стереоскопическое) зрение позволяет дронам строить 3д карту окружающего пространства

История проблемы

Когда появилась задача создать беспилотный автомобиль, технологические корпорации пошли двумя разными путями. Большинство компаний, в том числе Гугл, Яндекс, Uber и другие решили делать его на основе 3д сканеров (лидаров). Илон Маск и его компания Тесла решила не использовать дорогие на то время лидары, а опираться только на камеры.

Это не кадр из фантастического фильма. Так видит мир дрон skydio R1.
Это не кадр из фантастического фильма. Так видит мир дрон skydio R1.

Подробнее об этом можно почитать здесь: Илон Маск: «Лидар это потеря времени. Все, кто полагаются на лидар, обречены» https://habr.com/ru/company/itelma/blog/506396/

Лидары были нужны, чтобы построить 3д карты местности, без которых как считается робомобилям ездить практически невозможно. Маск же говорил, что беспилотным автомобили тесла не нужны 3д карты, поэтому необходимости в лидарах нет.

При этом не упоминалась технология бинокулярного (глубинного,так как позволяет видеть глубину сцены) машинного зрения, которая в теории позволяла строить 3д карты местности опираясь только на камеры.

Современное ситуация в области бинокулярного машинного зрения

Существуют 3д стереокамеры глубины (Zed, Nerian и др).

С помощью этих камер можно получить такую 3д картинку:

Вот видеодемонстрация работы таких камер:

Предназначаются такие камеры в основном для разработчиков, студентов и энтузиастов. Широкого распространения не получили. Возможно в университетах типа Сколково или Иннополиса есть несколько экземпляров стереоскопических камер, а может даже там нет.

Зато широкое распространение технология стереоскопического зрения получила в беспилотных летательнах аппаратах. Например на дроне DJI mavic air2 установлено три стереокамеры: одна смотрит вперед, одна вниз и одна назад (то есть получается 6 простых камер). А на модели air2s добавлена еще верхняя стереокамера глубины.

Другие производители БПЛА также используют на дронах эту систему ориентации в пространстве. Сразу много интересных вопросов возникает к производителям дронов:

  1. Если дроны с помощью стереокамер создают 3д карту местности, то хранят ли они ее в памяти? Отправляют ли эту 3д карту на какой-нибудь сервер?

  2. Если у производителей дронов есть доступ ко множеству карт местностей, то существует ли уже единая 3д карта всех мест, где когда либо пролетали дроны?

  3. Делает ли дрон 3д скан лица хозяина, пока тот расправляет дрону винты?

  4. Распознает ли дрон обьекты? (некоторые дроны отличают человека от машины, но отличает ли дрон мерседес от бмв? Безрукова от Ди Каприо?)

  5. Что нам делать когда прилетит новая прошивка и все эти функции появятся?

В целом можно сказать, что стереокамеры стали одной из ключевых технологий в сфере беспилотных летательных аппаратов. Будет ли применятся эта технология и для беспилотных авто тоже покажет время.

Часть 2: почему я написал эту статью

Последние несколько лет я увлекаюсь технологией стереокамер. Но не для машин, а для людей. Снимаю 3д видео, создал для этого специальную 3д камеру на основе уже существующих. Мне кажется, что мои ролики являются одними из самых качественных на ютубе в формате 3д. (ссылку выкладывать не буду, ибо мало кто сможет их посмотреть: нужны 3д очки, смартфон с плотностью пикселей экрана не ниже 560ppi, а таких уже нет в продаже и еще некоторые тонкости)

Появилось желание преобразовать свои видео из простого стереовидео в видео с глубиной сцены как на ролике выше. Понятно, что ни DJI, ни ZED, ни Nerian не будут делиться со мной своей технологией преобразование стереовидео в видео с глубиной сцены. Поэтому я буду создавать аналогичную технологию сам. Если у кого-то уже есть какие-то наработки на эту тему, то пожалуйста напишите в личку или оставьте коммент внизу. Будет интересно послушать любые мнения по поводу стереозрения: и машинного, и естественного.

Понятно, что тема максимально узкая и мало кому интересная, кроме разработчиков дронов и может некоторых пользователей дронов. Я не нашел в России кого-то, кто занимается бинокулярным машинным (и естественным тоже) зрением. Если знаете, то оставьте ссылки на них, будет интересно почитать и посмотреть.

Теги:
Хабы:
Всего голосов 8: ↑5 и ↓3+4
Комментарии78

Публикации

Истории

Работа

Data Scientist
78 вакансий

Ближайшие события

15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань