Comments 17
Какие системные требования к вычислителю который будет на дроне?
Правильно ли я понимаю что если делать то же самое но с бинокулярным зрением, например с целью уклонения от "чёрного автомобиля" и прочих случайных объектов вроде деревьев то требования к вычислителю возрастут в два раза?
Пока всё написанное - это просто слова.
Идея, так сказать. Коих очень много всем приходят в голову, но так и не доходят до реализации.
Так что подавайте-ка реализацию. С описанием проблем с которыми столкнулись и которые мужественно преодолели
Приходилось писать реалтаймовое автоматическое выравнивание камер глубины между собой (RealSense D415), то есть вычислять относительно одной камеры положение всех остальных. Нужно это было для реалтаймового 3D сканирования с текстурой — строим несколько поверхностей и сшиваем.
Выравнивание сделал так: ищем общие точки на цветных 2D картинках, через канал глубины вытаскиваем расстояние до них и рассчитываем их 3D координаты в локальной системе отсчёта конкретной камеры, дальше уже простая триангуляция. Ну то есть вот треугольник видит одна камера, вот другой треугольник видит другая камера. Мы знаем, что это в реале эти два треугольника на самом деле один и тот же треугольник, поэтому можем посчитать матрицу трансформации.
D415 шумит конечно, но точек много, комбинаций по 3 точки ещё больше, поэтому немного медианной фильтрации, усреднения и кое‑какой магии — и вот уже точность +‑ приемлемая. Камеры, в основном, стояли на месте, их иногда могли перенести куда‑нибудь или просто случайно сместить. Поэтому я мог позволить себе оооочень долгое интегрирование по времени :)
Так вот, есть мысли что подобный подход применим и тут, и высоковероятно, что ресурсов жрать оно будет меньше, чем нейросетка, даже в случае с монокулярной камерой. Фактически при движении дрона мы получаем новые ракурсы, и нам нужно просто узнать координаты нового местоположения в системе координат предыдущего (или нескольких), и просто интегрировать путь.
А ещё это довольно несложно (относительно) впихнуть в ASIC и производить по 50 000 штук в месяц.
Ну-ну
Основным недостатком данного метода является то, что движущиеся предметы оказываются не видны.
А почему вы сделали вывод что движущие предметы не видны? Как я понимаю этот метод, движение наоборот улучшает расчёт глубины.
Не совсем так. Движение не улучшает рассчет глубины. Движение позволяет делать рассчет глубины. Отсюда и название метода.
Вобщем тесла не видит нераспознанные движущиеся объекты
Что значит не распознанные. На днях выпал снег, тесла отлично распознаёт все сугробы любой формы. Как любые подвижные необычные объекты.
Какие например подвижные необычные обьекты?
Способ, который использует тесла не позволяет строить облако точек для необычных подвижных обьектов
Может в очень старых версиях была такая проблема но не сейчас.
Сейчас тесла переносит в 3д сцену все объекты, неважно, распознаны они или нет.
Если неопознаный объект подвижный то он будет по умолчанию считаться либо машиной либо пешеходом.
https://www.youtube.com/live/ODSJsviD_SU?t=4331&si=xfZ4O6ZPNIpLUIYj
Оригинальный математический метод позволяет строить только одно облако точек. Tesla перешла с математики на нейросети, что позволило ей строить одновременно несколько облаков точек.
Некоторые недостатки метода решены, но осталось много других недостатков метода.
Проблему с нестабильными облаками точек ( дым на дороге или бегущее животное) думаю тесла решить на сможет.
Сам метод они выбрали неправильно
Есть уже десятки видосов где fsd видит и отворачивает от разных животных, от зайца до оленя. Мне самому пару раз попадались кошки и один раз енот.
Сейчас каждый день теслы на фсд проезжают миллионы км. Так что проблема точно решена.
У теслы монокулярное зрение. По типу как у оленей или лошадей. Там есть фундаментальные ограничения. Но олени могут бегать по среди деревьев не врезаясь в них. И тесла сможет (или уже сейчас может) ездить не врезаясь.
Но странности в таком вождении с точки зрения челевека будут всегда. (Типа как не заметить поезд на переезде и влететь в него)
Это спорное утверждение. У Теслы 2-3 камеры спереди. По две камеры с каждой стороны и одна камера сзади. Боковые камеры смотрят немного вперёд и назад. Большинство пространства попадает всегда в поле как минимум двух камер. Так что можно сказать что это стерио хоть и необычное. ИИ обрабатывает видео панараму а не поток с каждой отдельной камеры.
Не верьте одному неизвестному видосу. Не факт что он был на автопилоте.
При бинокулярное зрении нужны сдвоенные камеры с рассчитанным межкамерным расстоянием. От этого межкамерного расстояния зависит их рабочий диапазон по дальности.
Если у Теслы межкамерного расстояние 1,5м (между зеркал) то рабочий диапазон будет от 15 до 150 и при хорошем качестве камер.
Если 1080р, то тогда рабочий диапазон будет 30-100метров наверное или хуже.
У людей диапазон тоже не очень конечно, но качество матрицы в человеческом глазе существенно лучше.
Вобщем бинокулярное зрение сейчас дроны dji используют. Там конфигурация правильная и не такая как у теслы
ИИ наплевать на правильность. Принцип в том что должно быть две камеры с разной перспективой. А то что расположены на расстоянии в 2 см или в метре по диагонали это уже частности с которыми ИИ легко справляется.
Определение координат дрона относительно движущегося объекта