Pull to refresh

Comments 27

Опыт показывает, что управлять машиной можно при наличии только стереокамер (глаза), никакой лидар для этого не нужен. Почему же изначально не получилось сделать беспилотник на камерах - софт оказался слишком сложным?

У человека глаз не плоский и от этого есть ощущение глубины и расстояния. а все камеры - проецируют изобращение на плоскую матрицу теряя существенный пласт данных. вот как только матрицу сделают полусферой - все пойдет лучше

Насколько я помню, глубина и расстояние берётся не из формы глаза, а из бинокулярного зрения.

Тогда если закрыть один глаз, то у вас и глубина пропадет?

Конечно.

Не полностью, потому что мозг на основе опыта будет пытаться выстроить трехмерную картину, но определить расстояние до объекта неизвестного размера будет намного сложнее.

Ох, как бы хотелось лидар в глаза, чтобы на трассе нормально определять расстояние до встречных машин, а также скорость их приближения :)

Ой да ладно, признайся, ты просто хочешь пулять лазерами из глаз и всё.

У человека не просто две камеры. Они могут перемещаться и смотреть в любом направлении, и имеют очень большой динамический диапазон. Более того человек имеет миллионы примеров разных ракурсов машин, велосипедов, знаков, других людей из-за чего ему проще ориентироваться на местности и определять препятствия.

у автопилота всё то же самое, только камер может быть сколько угодно, направлены во все стороны, часть из них в ИК диапазоне и ещё радары и лидары в любом количестве.

Обученный человек с двумя глазами пока справляется лучше, чем лидары и камеры, особенно если нужно проехать по лесу или разбитой деревенской дороге. Да и распознает объекты человек лучше чем нейросети, как минимум на майку со знаком stop он не остановится, под фуру не заедет и рекламу с людьми не перепутает.

Во первых, это уже другая тема. Про две камеры мы, видимо, закончили. Во вторых, во многих случаях уже хуже. И быстрее, что тоже важно. Ну и пределы обучения человека практически достигнуты и далее радикального улучшения ждать не стоит. А с ИИ всё только начинается.

Добавление лидара и десятка камер - способ компенсировать их недостатки по сравнению с человеческим зрением. Под спойлером я привел картинку из поста как камеры видят мир. Сравните ее с тем, что вы видите своими глазами. С такими шумными данными, как на картинке, даже человеку водить будет сложно, не говоря о нейросети. Отсюда и сложности в распознавании и обучении у автомобилей.

Картинка из поста

Уточню, что это мое лично мнение. Автономными автомобилями я не занимаюсь поэтому как они видят в реальности могу судить только по картинкам из статей.

Это человеческая интерпретация того как они видят, а не то как на самом деле. У человека в глазу тоже есть слепое пятно, которым мы не видим. Но наша биологическая нейросеть прекрасно дорисовывает недостающую информацию и большинство людей даже не догадывается об этом. Так что искусственные нейросети несложно научить закрывать эти промежутки

Пусть так. Но ясно вижу разницу, между хорошей фотографией с HDR и картинкой приведенной в статье на одном и том же мониторе. Если разница в интерпретации, почему картинки на одном и том же устройстве, в одних и тех же условиях дают такую разницу в восприятии? На мой взгляд реальность в этом плане ни чем не отличается, эту же картинку с автомобиля я могу рассмотреть, например в VR очках, и так же увижу разницу с приведенными в статье изображениями.

Да, мозг дорисовывает и закрашивает слепое пятно благодаря второй камере. Однако даже с этой дорисовкой мы очень хорошо распознаем объекты в том числе благодаря тому, что глаза передают картинку лучше камер. Тут роль играет не только нейросеть, но и качество картинки на которой она работает. Аналогичная разница будет если обучать нейросети на видео 320x240 с древнего телефона и на 1080p с последнего iPhone. Не уверен на 100%, но вряд ли на автомобили ставят камеры в половину цены самого автомобиля.

А вас не смущает, что обе картинки получены с помощью камер? :-)))

Глаза не лучше камер, а сильно хуже. На разведывательных БПЛА стоят такие камеры, что никакому глазу не сравниться. Не говоря о спутниках. Да даже в системах видеонаблюдения ставят камеры, которые лучше человеческого глаза. И главное - пределов совершенству камер нет, а глаз никак уже не улучшить.

А ещё компьютерное зрение быстрее и точнее выявляет объекты на кадрах и это тоже можно совершенствовать бесконечно. А возможности человека с двумя глазами не улучшить никак.

Слепое пятно дорисовывается и с одним глазом - за счёт ранее запомненных кадров.

Нет, не смущает. Если на автомобиль будут ставить камеры со спутника или БПЛА - тогда я с вами соглашусь. Но пока картинка с камер автомобилей, которую я вижу в статьях и презентациях, на порядок хуже картинки даже со среднего телефона, особенно когда в кадре появляется солнце и погодные эффекты.

В перспективе - да, возможно автомобили будут видеть и действовать лучше людей, и даже лидары не понадобятся. Но то, что я вижу на данный момент - попытки несовершенства восприятия компенсировать количеством и вычислительной мощностью. Опять же - это мое ИМХО, может в действительности не все так плохо и видят автомобили как спутники, просто в статьях приводят пережатые картинки.

Да, ИИ - это сложно.

Животных эволюция точила под задачи навигации в пространстве сотни миллионов лет. Человек при разработке ИИ начинает буквально "с нуля". Неудивительно что нахрапом, с первой попытки, задача не решилась.

Ясно, что работать только на камерах не невозможно. В идеале лидар не нужен. Но живём мы не в идеале, а в реальности. Допилить "софт" ИИ до такого уровня работы очень и очень тяжело. Поэтому много кто подпирает систему костылями в виде лидаров.

Самое лучшее бинокулярное зрение на дронах skydio. Они даже ветки деревьев и провода облетают.

так видит обьекты дрон skydio
так видит обьекты дрон skydio

С другой стороны, если человек закроет один глаз, то он может вести машину так же хорошо, как обычно. Видимо бинокулярное зрение не обязательно для вождения/ориентации в пространстве.

Подробнее про skydio тут: https://habr.com/ru/articles/665808/

У меня приятель в детстве остался без глаза и носит имитатор. При этом сдал на права с первого раза и долгое время работал водителем-экспедитором. По его словам, чувствовать расстояние он может и с одним глазом. Основная сложность это зеркала и необходимость больше крутить головой во время перестроений и движения назад.

Это все хорош, но на практике один глаз создает массу ограничений. Скорость реакции такого водителя, особенно на объект с дисфункциональной стороны, значительно снижена.

Реальность: ни один из доступных на тот момент алгоритмов не помог нам улучшить качество репроецирования. Обученные на комнатных данных модели не были готовы к настоящей погоде и живым камерам.

а если расставить камеры по-шире?

Лидар хорош тем, что может определить расстояние до объекта с точностью до сантиметра

а в дождь/снег?

И ещё вопрос - а если не дороге будет много автомобилей с лидарами и все будут светить друг другу в лидары одинаковым лазером - лидар сможет понять где его отражения, а где засветка от чужих лазеров?

Сфера бесконечного радиуса в действии

Вообще-то на картинке у вас цилиндр :-)))

Всегда думал, в будущем, когда на улице сотни лидаров будут тебя облизывать, сетчатке от этого плохо не будет?

А ИК прожектора перестали волновать?)

А где они нопремер? В купольных камерах где-то над головой? А тут на уровне глаз и есть. И к тому же подсветка именно что прожектор, рассеивающийся через десяток метров, а не когерентный пучок, который фокусированный для сканирования препятствий.

В любой камере вечером, коих вокруг полно над дверьми, а фокусируетесь сразу, как подмечаете едва красные огонечьки на них. Подсветка яркая, диафрагма глаза открыта... не знаю, что там с температурой, ясно что у лазера на порядки выше, но все же эффекты мне не понятны, вся ли опасность только от нагрева?

ИК в камере это между тепловым и видимым. Нагревает не сильно и глаз его не регистрирует.

Sign up to leave a comment.