Comments 27
Опыт показывает, что управлять машиной можно при наличии только стереокамер (глаза), никакой лидар для этого не нужен. Почему же изначально не получилось сделать беспилотник на камерах - софт оказался слишком сложным?
У человека глаз не плоский и от этого есть ощущение глубины и расстояния. а все камеры - проецируют изобращение на плоскую матрицу теряя существенный пласт данных. вот как только матрицу сделают полусферой - все пойдет лучше
Ох, как бы хотелось лидар в глаза, чтобы на трассе нормально определять расстояние до встречных машин, а также скорость их приближения :)
У человека не просто две камеры. Они могут перемещаться и смотреть в любом направлении, и имеют очень большой динамический диапазон. Более того человек имеет миллионы примеров разных ракурсов машин, велосипедов, знаков, других людей из-за чего ему проще ориентироваться на местности и определять препятствия.
у автопилота всё то же самое, только камер может быть сколько угодно, направлены во все стороны, часть из них в ИК диапазоне и ещё радары и лидары в любом количестве.
Обученный человек с двумя глазами пока справляется лучше, чем лидары и камеры, особенно если нужно проехать по лесу или разбитой деревенской дороге. Да и распознает объекты человек лучше чем нейросети, как минимум на майку со знаком stop он не остановится, под фуру не заедет и рекламу с людьми не перепутает.
Во первых, это уже другая тема. Про две камеры мы, видимо, закончили. Во вторых, во многих случаях уже хуже. И быстрее, что тоже важно. Ну и пределы обучения человека практически достигнуты и далее радикального улучшения ждать не стоит. А с ИИ всё только начинается.
Добавление лидара и десятка камер - способ компенсировать их недостатки по сравнению с человеческим зрением. Под спойлером я привел картинку из поста как камеры видят мир. Сравните ее с тем, что вы видите своими глазами. С такими шумными данными, как на картинке, даже человеку водить будет сложно, не говоря о нейросети. Отсюда и сложности в распознавании и обучении у автомобилей.
Картинка из поста
Уточню, что это мое лично мнение. Автономными автомобилями я не занимаюсь поэтому как они видят в реальности могу судить только по картинкам из статей.
Это человеческая интерпретация того как они видят, а не то как на самом деле. У человека в глазу тоже есть слепое пятно, которым мы не видим. Но наша биологическая нейросеть прекрасно дорисовывает недостающую информацию и большинство людей даже не догадывается об этом. Так что искусственные нейросети несложно научить закрывать эти промежутки
Пусть так. Но ясно вижу разницу, между хорошей фотографией с HDR и картинкой приведенной в статье на одном и том же мониторе. Если разница в интерпретации, почему картинки на одном и том же устройстве, в одних и тех же условиях дают такую разницу в восприятии? На мой взгляд реальность в этом плане ни чем не отличается, эту же картинку с автомобиля я могу рассмотреть, например в VR очках, и так же увижу разницу с приведенными в статье изображениями.
Да, мозг дорисовывает и закрашивает слепое пятно благодаря второй камере. Однако даже с этой дорисовкой мы очень хорошо распознаем объекты в том числе благодаря тому, что глаза передают картинку лучше камер. Тут роль играет не только нейросеть, но и качество картинки на которой она работает. Аналогичная разница будет если обучать нейросети на видео 320x240 с древнего телефона и на 1080p с последнего iPhone. Не уверен на 100%, но вряд ли на автомобили ставят камеры в половину цены самого автомобиля.
А вас не смущает, что обе картинки получены с помощью камер? :-)))
Глаза не лучше камер, а сильно хуже. На разведывательных БПЛА стоят такие камеры, что никакому глазу не сравниться. Не говоря о спутниках. Да даже в системах видеонаблюдения ставят камеры, которые лучше человеческого глаза. И главное - пределов совершенству камер нет, а глаз никак уже не улучшить.
А ещё компьютерное зрение быстрее и точнее выявляет объекты на кадрах и это тоже можно совершенствовать бесконечно. А возможности человека с двумя глазами не улучшить никак.
Слепое пятно дорисовывается и с одним глазом - за счёт ранее запомненных кадров.
Нет, не смущает. Если на автомобиль будут ставить камеры со спутника или БПЛА - тогда я с вами соглашусь. Но пока картинка с камер автомобилей, которую я вижу в статьях и презентациях, на порядок хуже картинки даже со среднего телефона, особенно когда в кадре появляется солнце и погодные эффекты.
В перспективе - да, возможно автомобили будут видеть и действовать лучше людей, и даже лидары не понадобятся. Но то, что я вижу на данный момент - попытки несовершенства восприятия компенсировать количеством и вычислительной мощностью. Опять же - это мое ИМХО, может в действительности не все так плохо и видят автомобили как спутники, просто в статьях приводят пережатые картинки.
Да, ИИ - это сложно.
Животных эволюция точила под задачи навигации в пространстве сотни миллионов лет. Человек при разработке ИИ начинает буквально "с нуля". Неудивительно что нахрапом, с первой попытки, задача не решилась.
Ясно, что работать только на камерах не невозможно. В идеале лидар не нужен. Но живём мы не в идеале, а в реальности. Допилить "софт" ИИ до такого уровня работы очень и очень тяжело. Поэтому много кто подпирает систему костылями в виде лидаров.
Самое лучшее бинокулярное зрение на дронах skydio. Они даже ветки деревьев и провода облетают.
С другой стороны, если человек закроет один глаз, то он может вести машину так же хорошо, как обычно. Видимо бинокулярное зрение не обязательно для вождения/ориентации в пространстве.
Подробнее про skydio тут: https://habr.com/ru/articles/665808/
У меня приятель в детстве остался без глаза и носит имитатор. При этом сдал на права с первого раза и долгое время работал водителем-экспедитором. По его словам, чувствовать расстояние он может и с одним глазом. Основная сложность это зеркала и необходимость больше крутить головой во время перестроений и движения назад.
Реальность: ни один из доступных на тот момент алгоритмов не помог нам улучшить качество репроецирования. Обученные на комнатных данных модели не были готовы к настоящей погоде и живым камерам.
а если расставить камеры по-шире?
Лидар хорош тем, что может определить расстояние до объекта с точностью до сантиметра
а в дождь/снег?
И ещё вопрос - а если не дороге будет много автомобилей с лидарами и все будут светить друг другу в лидары одинаковым лазером - лидар сможет понять где его отражения, а где засветка от чужих лазеров?
Сфера бесконечного радиуса в действии
Вообще-то на картинке у вас цилиндр :-)))
Всегда думал, в будущем, когда на улице сотни лидаров будут тебя облизывать, сетчатке от этого плохо не будет?
А ИК прожектора перестали волновать?)
А где они нопремер? В купольных камерах где-то над головой? А тут на уровне глаз и есть. И к тому же подсветка именно что прожектор, рассеивающийся через десяток метров, а не когерентный пучок, который фокусированный для сканирования препятствий.
В любой камере вечером, коих вокруг полно над дверьми, а фокусируетесь сразу, как подмечаете едва красные огонечьки на них. Подсветка яркая, диафрагма глаза открыта... не знаю, что там с температурой, ясно что у лазера на порядки выше, но все же эффекты мне не понятны, вся ли опасность только от нагрева?
ИК в камере это между тепловым и видимым. Нагревает не сильно и глаз его не регистрирует.
Пусть не регистрирует, излучение же все равно остается. Тут правда 197 Вт/см2 - кажется, дохрена, но все же смысл показан
https://pubmed.ncbi.nlm.nih.gov/25044273/
Как эволюционировало машинное зрение автономного транспорта. Доклад Яндекса