NatalieVT 19 сен 2024 в 08:00

Как эволюционировало машинное зрение автономного транспорта. Доклад Яндекса

9 мин

11K

Блог компании ЯндексМашинное обучение*Компьютерное железоТранспорт

+42

Комментарии 28

konst90 19 сен 2024 в 08:08

Опыт показывает, что управлять машиной можно при наличии только стереокамер (глаза), никакой лидар для этого не нужен. Почему же изначально не получилось сделать беспилотник на камерах - софт оказался слишком сложным?

polRk 19 сен 2024 в 08:44

У человека глаз не плоский и от этого есть ощущение глубины и расстояния. а все камеры - проецируют изобращение на плоскую матрицу теряя существенный пласт данных. вот как только матрицу сделают полусферой - все пойдет лучше

konst90 19 сен 2024 в 08:48

Насколько я помню, глубина и расстояние берётся не из формы глаза, а из бинокулярного зрения.

kalbas 19 сен 2024 в 08:51

Тогда если закрыть один глаз, то у вас и глубина пропадет?

konst90 19 сен 2024 в 08:58

Конечно.

Не полностью, потому что мозг на основе опыта будет пытаться выстроить трехмерную картину, но определить расстояние до объекта неизвестного размера будет намного сложнее.

kalbas 19 сен 2024 в 08:47

Ох, как бы хотелось лидар в глаза, чтобы на трассе нормально определять расстояние до встречных машин, а также скорость их приближения :)

radtie 19 сен 2024 в 09:27

Ой да ладно, признайся, ты просто хочешь пулять лазерами из глаз и всё.

SnakeSolid 19 сен 2024 в 09:58

У человека не просто две камеры. Они могут перемещаться и смотреть в любом направлении, и имеют очень большой динамический диапазон. Более того человек имеет миллионы примеров разных ракурсов машин, велосипедов, знаков, других людей из-за чего ему проще ориентироваться на местности и определять препятствия.

Dynasaur 19 сен 2024 в 16:32

у автопилота всё то же самое, только камер может быть сколько угодно, направлены во все стороны, часть из них в ИК диапазоне и ещё радары и лидары в любом количестве.

SnakeSolid 20 сен 2024 в 06:32

Обученный человек с двумя глазами пока справляется лучше, чем лидары и камеры, особенно если нужно проехать по лесу или разбитой деревенской дороге. Да и распознает объекты человек лучше чем нейросети, как минимум на майку со знаком stop он не остановится, под фуру не заедет и рекламу с людьми не перепутает.

Dynasaur 21 сен 2024 в 18:38

Во первых, это уже другая тема. Про две камеры мы, видимо, закончили. Во вторых, во многих случаях уже хуже. И быстрее, что тоже важно. Ну и пределы обучения человека практически достигнуты и далее радикального улучшения ждать не стоит. А с ИИ всё только начинается.

SnakeSolid 22 сен 2024 в 06:14

Добавление лидара и десятка камер - способ компенсировать их недостатки по сравнению с человеческим зрением. Под спойлером я привел картинку из поста как камеры видят мир. Сравните ее с тем, что вы видите своими глазами. С такими шумными данными, как на картинке, даже человеку водить будет сложно, не говоря о нейросети. Отсюда и сложности в распознавании и обучении у автомобилей.

Картинка из поста

Уточню, что это мое лично мнение. Автономными автомобилями я не занимаюсь поэтому как они видят в реальности могу судить только по картинкам из статей.

Dynasaur 22 сен 2024 в 16:28

Это человеческая интерпретация того как они видят, а не то как на самом деле. У человека в глазу тоже есть слепое пятно, которым мы не видим. Но наша биологическая нейросеть прекрасно дорисовывает недостающую информацию и большинство людей даже не догадывается об этом. Так что искусственные нейросети несложно научить закрывать эти промежутки

SnakeSolid 23 сен 2024 в 18:41

Пусть так. Но ясно вижу разницу, между хорошей фотографией с HDR и картинкой приведенной в статье на одном и том же мониторе. Если разница в интерпретации, почему картинки на одном и том же устройстве, в одних и тех же условиях дают такую разницу в восприятии? На мой взгляд реальность в этом плане ни чем не отличается, эту же картинку с автомобиля я могу рассмотреть, например в VR очках, и так же увижу разницу с приведенными в статье изображениями.

Да, мозг дорисовывает и закрашивает слепое пятно благодаря второй камере. Однако даже с этой дорисовкой мы очень хорошо распознаем объекты в том числе благодаря тому, что глаза передают картинку лучше камер. Тут роль играет не только нейросеть, но и качество картинки на которой она работает. Аналогичная разница будет если обучать нейросети на видео 320x240 с древнего телефона и на 1080p с последнего iPhone. Не уверен на 100%, но вряд ли на автомобили ставят камеры в половину цены самого автомобиля.

Dynasaur 24 сен 2024 в 09:49

А вас не смущает, что обе картинки получены с помощью камер? :-)))

Глаза не лучше камер, а сильно хуже. На разведывательных БПЛА стоят такие камеры, что никакому глазу не сравниться. Не говоря о спутниках. Да даже в системах видеонаблюдения ставят камеры, которые лучше человеческого глаза. И главное - пределов совершенству камер нет, а глаз никак уже не улучшить.

А ещё компьютерное зрение быстрее и точнее выявляет объекты на кадрах и это тоже можно совершенствовать бесконечно. А возможности человека с двумя глазами не улучшить никак.

Слепое пятно дорисовывается и с одним глазом - за счёт ранее запомненных кадров.

SnakeSolid 26 сен 2024 в 10:24

Нет, не смущает. Если на автомобиль будут ставить камеры со спутника или БПЛА - тогда я с вами соглашусь. Но пока картинка с камер автомобилей, которую я вижу в статьях и презентациях, на порядок хуже картинки даже со среднего телефона, особенно когда в кадре появляется солнце и погодные эффекты.

В перспективе - да, возможно автомобили будут видеть и действовать лучше людей, и даже лидары не понадобятся. Но то, что я вижу на данный момент - попытки несовершенства восприятия компенсировать количеством и вычислительной мощностью. Опять же - это мое ИМХО, может в действительности не все так плохо и видят автомобили как спутники, просто в статьях приводят пережатые картинки.

acc0unt 19 сен 2024 в 16:59

Да, ИИ - это сложно.

Животных эволюция точила под задачи навигации в пространстве сотни миллионов лет. Человек при разработке ИИ начинает буквально "с нуля". Неудивительно что нахрапом, с первой попытки, задача не решилась.

Ясно, что работать только на камерах не невозможно. В идеале лидар не нужен. Но живём мы не в идеале, а в реальности. Допилить "софт" ИИ до такого уровня работы очень и очень тяжело. Поэтому много кто подпирает систему костылями в виде лидаров.

malyazin_2010 19 сен 2024 в 13:36

Самое лучшее бинокулярное зрение на дронах skydio. Они даже ветки деревьев и провода облетают.

С другой стороны, если человек закроет один глаз, то он может вести машину так же хорошо, как обычно. Видимо бинокулярное зрение не обязательно для вождения/ориентации в пространстве.

Подробнее про skydio тут: https://habr.com/ru/articles/665808/

funca 19 сен 2024 в 20:53

У меня приятель в детстве остался без глаза и носит имитатор. При этом сдал на права с первого раза и долгое время работал водителем-экспедитором. По его словам, чувствовать расстояние он может и с одним глазом. Основная сложность это зеркала и необходимость больше крутить головой во время перестроений и движения назад.

nApoBo3 20 сен 2024 в 11:46

Это все хорош, но на практике один глаз создает массу ограничений. Скорость реакции такого водителя, особенно на объект с дисфункциональной стороны, значительно снижена.

Dynasaur 19 сен 2024 в 16:11

Реальность: ни один из доступных на тот момент алгоритмов не помог нам улучшить качество репроецирования. Обученные на комнатных данных модели не были готовы к настоящей погоде и живым камерам.

а если расставить камеры по-шире?

Лидар хорош тем, что может определить расстояние до объекта с точностью до сантиметра

а в дождь/снег?

И ещё вопрос - а если не дороге будет много автомобилей с лидарами и все будут светить друг другу в лидары одинаковым лазером - лидар сможет понять где его отражения, а где засветка от чужих лазеров?

Сфера бесконечного радиуса в действии

Вообще-то на картинке у вас цилиндр :-)))

Vsevo10d 19 сен 2024 в 21:58

Всегда думал, в будущем, когда на улице сотни лидаров будут тебя облизывать, сетчатке от этого плохо не будет?

Alexufo 19 сен 2024 в 23:26

А ИК прожектора перестали волновать?)

Vsevo10d 20 сен 2024 в 10:20

А где они нопремер? В купольных камерах где-то над головой? А тут на уровне глаз и есть. И к тому же подсветка именно что прожектор, рассеивающийся через десяток метров, а не когерентный пучок, который фокусированный для сканирования препятствий.

Alexufo 20 сен 2024 в 10:27

В любой камере вечером, коих вокруг полно над дверьми, а фокусируетесь сразу, как подмечаете едва красные огонечьки на них. Подсветка яркая, диафрагма глаза открыта... не знаю, что там с температурой, ясно что у лазера на порядки выше, но все же эффекты мне не понятны, вся ли опасность только от нагрева?

1CHer 20 сен 2024 в 12:27

ИК в камере это между тепловым и видимым. Нагревает не сильно и глаз его не регистрирует.

Alexufo 20 сен 2024 в 12:36

Пусть не регистрирует, излучение же все равно остается. Тут правда 197 Вт/см2 - кажется, дохрена, но все же смысл показан
https://pubmed.ncbi.nlm.nih.gov/25044273/

Prokop1977 11 окт 2024 в 07:19

Все хорошо, но что ваш лидар скажет, когда на улице будет снег в виде осадков (не на земле)? Думается, что "сойдет с ума".

Зарегистрируйтесь на Хабре, чтобы оставить комментарий