UprightMan 14 апр 2023 в 11:01

«Глаза» беспилотных автомобилей: LiDAR и компьютерное зрение

13 мин

20K

Блог компании FirstVDSОбработка изображений*Искусственный интеллектТранспортБудущее здесь

Вопрос «как видят мир самоуправляемые машины» может показаться большинству из нас слегка оторванным от реальности. Все уже привыкли к тому, что умные автомобили могут активно помогать водителю или самостоятельно ездить по улицам без помощи человека. Однако большинство автолюбителей привыкло полагаться исключительно на свои собственные глаза и скорость реакции, считая беспилотное вождение технологической диковинкой, которая станет массово актуальной лишь в отдаленном будущем.

По статистике ВОЗ, около 1,35 миллиона человек ежегодно умирают в автомобильных авариях по всему миру. Помимо чисто человеческих трагедий, эти печальные цифры несут в себе и более материальную угрозу. Ученые подсчитали, что за период 2015-30 гг. дорожные аварии обойдутся мировой экономике примерно в 1,8 триллиона долларов (в ценах 2010 г.), что эквивалентно ежегодной потере 0,12% глобального ВВП.

Разработка и массовое внедрение автономных транспортных средств потенциально может стать важным звеном в решении этой проблемы. Конечно, многое тут упирается в развитость и цену технологий. Однако от того, насколько эффективно будут работать машинные органы «чувств», будет зависеть сама дальнейшая судьба идеи о безопасном дорожном движении без человеческих ошибок.

*Компьютерное зрение (слева) и лидар (справа) - визуальное сравнение.*

Технология беспилотного автомобиля представляет собой сложную комбинацию алгоритмов, датчиков, приводов, автомобильных деталей и мощных процессоров, на которых работает специализированное программное обеспечение. Каждый из этих компонентов играет решающую роль, позволяя автономным ТС точно отображать свое окружение и отслеживать местоположение близлежащих транспортных средств, светофоров, пешеходов, краев дорог и разметки полос.

Большинство компаний, разрабатывающих беспилотные автомобили, обеспечивают их автономность с помощью двух основных видов сенсоров — лидара (LiDAR) или камер в сочетании с радарами и технологиями компьютерного зрения (CV). Чаще всего эти инструменты используются в комплексе, но каждый из производителей выделяет одну из них в качестве приоритетной. Например, самым известным сторонником «лидарной» концепции является компания Waymo (экс Google Self-Driving Car), входящая в Alphabet. А главными проводниками идеи об опоре преимущественно на данные с камер и радаров стали Илон Маск и возглавляемая им компания Tesla.

И у лидаров, у и камер есть свои очевидные сильные и слабые стороны, которые не позволяют одному из решений окончательно победить в давнем соперничестве. В этой статье мы сделаем краткий обзор каждой технологии и попробуем разобраться — за какой из них будущее.

Лидар — световой радар

Аббревиатура LiDAR расшифровывается как Light Detection And Ranging («обнаружение и определение дальности с помощью света»). Как несложно догадаться по названию, это сенсор, использующий свет, а точнее световой импульс в виде лазерного луча, для восприятия окружающей среды. Поэтому лидары часто называют «лазерными лидарами», хотя в приборах могут использоваться любые импульсные излучатели.

В зависимости от физического устройства, лидары разделяют на два основных типа — подвижные (механические) и статичные (твердотельные):

Механические или круговые лидары располагаются на крыше автомобиля в специальных модулях. Находящиеся в них датчики постоянно вращаются, обеспечивая обзор на 360°. Показания основных лидаров на крыше подкрепляются данными с дополнительных лазерных излучателей для бокового обзора, которые обычно крепятся над колесными арками. Механические лидары производят такие компании, как Velodyne, Waymo и Luminar.
Твердотельные лидары (Solid state LiDAR) — блоки со статично зафиксированными или регулируемыми датчиками, сканирующими с высокой скоростью определенную область по направлению движения транспорта. Обычно таких датчиков в твердотельном лидаре 4 — каждый охватывает сектор обзора в 90°, а после информация с них сводится в цельную картину с охватом на 360°. Подобные технологические решения производят китайские компании Robosense и Hesai Technology, немецкая Blickfeld и канадская LeddarTech. Твердотельные лидары с переменным углом обзора с 2019 года разрабатывает и устанавливает на своих беспилотниках отечественная компания Яндекс. Помимо беспилотных автомобилей, твердотельные лидары можно часто встретить в составе комплексов фотовидеофиксации (КФВФ), закрепленных на столбах вдоль автомобильных трасс.

Как работают лидары

Датчик LiDAR — это комплекс из излучателя и сенсора, который использует лазерные импульсы (ультрафиолет или инфракрасное излучение) для обнаружения объектов вокруг себя. Проходя от излучателя на автомобиле до ближайшей поверхности и обратно к фотосенсору, лазер замеряет расстояние между ними с помощью метода фазового сдвига. Эти вычисления производятся по формуле:

( D = (Et x C)/2 )

Например, если датчик LiDAR замечает светофор посреди дороги, он направляет туда лазер и записывает данные о времени возврата импульса (Et). Затем он умножает это время на скорость света (C) и делит на два, чтобы получить общее расстояние (D).

«Скорострельность» лидара составляет 50-100 лучей в секунду. В среднем лидарная система ежесекундно способна отправлять и принимать около 100 000 лазерных импульсов в секунду. Лазер может считывать окружающие объекты на расстоянии до 60 метров от камеры.

Подобная плотность импульсов и охват позволяют лидару создавать визуальную трехмерную карту окружающего пространства на основе массы полученных обратных импульсов. Множество подобных лазерных импульсов формируют некий массив или «облако точек». На основе разных облаков точек бортовой компьютер беспилотного автомобиля строит объекты, составляющие трехмерный«пейзаж» окружающего мира. Эта виртуальная картина может служить основой для дальнейших маневров беспилотника на дороге.

После получения данных от сенсоров, LiDAR обрабатывает информацию в 3 этапа.

Кластеризация. С помощью массы лазерных импульсов, лидар улавливает контуры окружающих объектов, фиксируя их на условной объемной «карте».
Классификация. Отсканированные очертания идентифицируются с реальными объектами и классифицируются для дальнейшей обработки.
Моделирование. Объекты, которые идентифицированы, предсказываются относительно всех возможных движений, которые они могут совершить.

Благодаря подобному алгоритму обработки информации, лидары могут отображать многогранную картину своего окружения в режиме реального времени, позволяя автопилоту машины каждую минуту принимать сотни тщательно просчитанных решений о маневрах на дороге.

Кто использует лидары

Большинство крупных компаний, производящих сегодня автономные транспортные средства, опирается на LiDAR, как на основной вид сенсоров для своих беспилотных ТС. Лидары также включены в комплектацию последних моделей усовершенствованных систем помощи водителю (ADAS). В число производителей, активно использующих лидары входят:

Waymo / Alphabet Inc. (роботакси Waymo One);
Cruise / GM (микроавтобус Origin);
Zoox / Amazon (роботакси Zoox);
Aurora (сервис Aurora Horizon);
Motional (роботакси IONIQ 5);
AutoX (сервис RoboTaxi);
Baidu (сервис роботакси Apollo Go);
Mobileye (MaaS система Mobileye Drive);
Toyota (проект Woven);
Яндекс (роботакси на базе Hyundai Sonata);
КамАЗ (беспилотные грузовики КамАЗ-54901 и КамАЗ-54907).

Наибольших успехов в развитии и применении технологии LiDAR удалось достигнуть Waymo и Cruise, обладающих крупнейшим в Штатах «флотом» автономных ТС в более чем 1000 авто. В этом году компании отчитались о том, что их беспилотники успешно откатали первый миллион миль в режиме «только с пассажиром» по различным городам США.

При этом пятое поколение системы управления беспилотным автомобилем Waymo Driver, оснащенное пятью лидарами собственного производства, показало великолепные результаты по безопасности вождения. Согласно отчету Waymo, за 1 миллион миль пробега, автомобиль имел всего лишь 18 незначительных и 2 серьезных столкновения, в которых не было пострадавших людей. Больше половины происшествий происходило по вине водителей других транспортного средства.

Плюсы лидаров

Обеспеченность данными. Благодаря тому, что LiDAR создает виртуальную «карту» окружающего пространства в режиме реального времени, управляющие системы беспилотного постоянно получают достаточный объем информации, чтобы планировать маневры и безопасно перемещаться, избегая возможных точек столкновения.

Высокая точность и быстрота. Плотное «облако точек», испускаемое лазерами лидара, за доли секунды считывает малейшие детали в радиусе обзора прибора, которые могут ускользнуть от глаз водителя или «внимания» алгоритмов CV. Например, разработчики из Waymo утверждают, что их лидар может считывать даже сигналы рук велосипедистов, пытающихся предсказать, куда они могут поехать.

Относительно слабое влияние внешних условий. Хотя теоритически для работы лидара можно использовать любые достаточно сильные излучатели света, источниками световых импульсов в нем служат мощные лазерные лучи. Это решение не только увеличивает радиус действия радара, но и в значительно мере избавляет его от влияния внешних помех и отсутствия освещенности. Конечно густая растительность или тропический ливень определенно исказят или даже полностью заблокируют сигналы лидара. Зато они легко проходят сквозь слабый туман, небольшой дождь, тени, солнечный свет или даже фары проезжающих мимо автомобилей, что дает прибору серьезное преимущество по сравнению с камерами или даже человеческим зрением.

Экономия вычислительных ресурсов. Лидар гарантирует системам автономного вождения не только хорошее «зрение» или точность детекции. Применение этой технологии требует от бортовых компьютеров меньше вычислительных мощностей для обработки данных, по сравнению с системами, построенными только на анализе визуальных данных искусственным интеллектом.

Минусы лидаров

Цена. Хотя производство LiDAR удалось поставить на поток, высокая стоимость прибора остается его главной «ахиллесовой пятой». Средний датчик LiDAR может стоить до 1000 долларов, что делает технологию доступной только крупным производителям, а также ложится тяжким бременем на планы по окупаемости беспилотных авто.

Сложность интерпретации. Лидар собирает очень большие наборы данных, требующие высокого уровня интерпретации. По этой причине анализ данных может занять много времени. Кроме того, технические возможности не позволяют лидару различать дорожные знаки, ГРЗ (государственные регистрационные знаки) автомобилей и цвета сигналов светофора.

Зависимость от технического состояния. Высокая точность измерений в лидаре напрямую определяется качеством и состоянием его датчиков. На показания лидара иногда могут влиять стабильность длины волны и чувствительность детектора, которые могут меняться, в зависимости от температурных условий или изменения соотношения сигнал/шум.

Снижение эстетической привлекательности. Даже суперсовременный электромобиль с органично скругленными линиями кузова и «хищными» фарами начинает выглядеть нелепо в сплошном обвесе из датчиков. И это не говоря уже о тяжелой «мигалке» лидар-модуля на крыше. Существующие технологии не позволяют достаточно элегантно решить вопрос с «вписыванием» лидара в автомобильный дизайн. Возможно, это будет сделано после окончания тестирования и запуска беспилотных авто в массовое производство.

Не только для беспилотных автомобилей

Автономные транспортные средства — далеко не единственное применение этой технологии. Лидары можно использовать для создания 3D-карт с высоким разрешением или лазерного сканирования определенных областей на поверхности земли или даже других планет. Лидары нашли применение в картографии, археологии, геологии, архитектуре, метеорологии и сельском хозяйстве.

*Караколь — памятник цивилизации майя возрастом более 2000 лет, открытый миру с помощью LiDAR. Источник: caracol.org.*

Именно благодаря LiDAR супругам археологам Арлену и Дайан Чейз из Университета Центральной Флориды удалось открыть в 2010 году руины Караколя — древнего города майя недалеко от Белиза. За 10 часов «лидарного» сканирования они смогли узнать о поселении больше, чем наземные экспедиции за почти три десятилетия прорубания через джунгли с помощью мачете. С 1983 по 2000 год археологи смогли картографировать около 7,7 квадратных миль памятника, а Чейзы с помощью лидара нанесли на карту 77 квадратных миль Караколя с более, чем 1000 археологических объектов и артефактов.

Компьютерное зрение (CV)

Хотя в большинстве систем на основе лидаров также используются камеры, существует параллельное направление развития технологий сенсорных устройств для робо-автомобилей, которое опирается исключительно на обработку видео с помощью алгоритмов компьютерного зрения (CV). Такие системы представляют собой комбинацию аппаратного (камеры, радары) и программного обеспечения, позволяющую машине визуально воспринимать окружающий мир.

Беспилотный автомобиль, оснащенный сенсорными CV-системами, напоминает раздражающего свадебного фотографа, обвешанного со всех сторон аппаратами с разнокалиберными объективами. Только тут камеры крошечного размера и равномерно распределены по поверхности транспортного средства.

Как работает система компьютерного зрения в автомобиле

В отличие от LiDAR, опирающегося на трехмерную картинку, составленную из «облака точек» CV-система использует двухмерную картинку, которая затем обрабатываются с помощью компьютерного зрения, машинного обучения и искусственного интеллекта, чтобы обнаружить объекты на изображении. Этот процесс разбит на несколько основных шагов, которые описываются формулой:

Классификация объектов + локализация объектов = обнаружение объектов

Классификация объектов

Object Detection — это процесс определения конкретных объектов на изображении. Она позволяет компьютерным системам, управляющим беспилотным автомобилем, получить примерное представление об объектах, находящихся вокруг. В их число, например, могут входить пешеходы, велосипеды или другие авто.

В дальнейшем эти данные уточняются с помощью локализации изображения, которая обеспечивает точное представление о местоположении, ограничивая их полями виртуальных рамок с известными параметрами (как можно видеть ниже).

Чтобы программное обеспечение беспилотных автомобилей могло классифицировать изображения, разработчики прибегают к помощи тренированной свёрточной нейронной сети.

Свёрточная нейронная сеть или CNN (Convolutional Neural Network) — это особый тип глубокой нейронной сети, используемый для распознавания и классификации изображений, путем анализа составляющих их пиксельных данных. Чтобы распознавать различные объекты, нейросеть прогоняет картинку (а точнее сетку пикселей с различными параметрами яркости и цвета) через специальные фильтры — конволюционные или свёрточные слои.

Слои CNN позволяют группировать пиксели на изображении и вычленять из них определенный набор признаков, соответствующих конкретным объектам. После тренировки на специализированных наборах данных, свёрточные сети могут не только отличать камень у обочины от проезжающего мимо велосипедиста, но и классифицировать найденные объекты по степени важности для передвижения автомобиля. Например, изображение неба или дерева нейросеть посчитает ложным предсказанием, а автомобиль или пешехода включит в расчет прогноза маневров беспилотника.

*Детекция объектов на изображении с помощью модели YOLO.*

Для детекции объектов на изображениях применяются различные архитектурные модели свёрточных нейронных сетей, включая:

алгоритм скользящих окон (Sliding Windows Algorithm);
R-CNN (Region-based Convolutional Neural Network);
Fast R-CNN;
Faster R-CNN;
Mask R-CNN;
SSD (Single Shot Detector);
YOLO (You Only Look Once).

Наиболее продвинутые модели CNN, вроде YOLO, позволяют не только точно разбить критические объекты детекции на классы, но и выделить на картинке каждый из них с помощью специальной ограничительной рамки или баундинг-бокса (bounding box).

Локализация объекта

Object Localization — второй шаг в процессе обработки изображений компьютерным зрением, который позволяет определить точное местоположение объектов детекции на виртуальной сетке пиксельных координат.

Существует специальный алгоритм для выполнения этой задачи, который называется немаксимальным подавлением или NMS (Non-maximal Suppression). Он позволяет сравнить результаты нескольких ограничительных рамок, содержащих грубые контуры объекта и выбрать тот баундинг-бокс, который лучше всего будет соответствовать предсказанию обнаружения объекта. В процессе сравнения нескольких рамок также применяется метрика IoU (Intersection over Union), показывающая степень их пересечения.

Главный евангелист компьютерного зрения

Любой, кто интересуется проблематикой автономного транспорта, слышал об отношении владельца Tesla к использованию лидаров. За последние годы Илон Маск неоднократно объявлял их «лишними деталями, «костылями», «глупостью» и даже говорил, что все, кто полагаются на лидары, «обречены».

*Источник: Christian Marquardt - Pool/Getty Images.*

Причинами подобного отношения стала стоимость устройств, а также разработанная компанией система Tesla Vision на базе Nvidia CUDA, в которой произошел полный отказ от радаров в пользу связки камер и нейросетей компьютерного зрения. С помощью повсеместного внедрения Tesla Vision, Маск планировал осуществить свою давнюю мечту — оснастить автомобили Tesla функцией полностью автономного вождения или FSD (Full Self-Driving).

В мае 2021 года Tesla объявила об отказе от радаров на новых автомобилях Model 3 и Model Y. Вскоре после этого компания начала заменять ультратонкие радарные датчики в ADAS системах Tesla Autopilot выпускаемых машин на визуальные средства Tesla Vision.

Результатом, согласно опросам почти дюжины бывших сотрудников и водителей-испытателей, работников службы безопасности и других экспертов, стал всплеск аварий, нарушений функционирования и других досадных ошибок в автомобилях Tesla, внезапно лишенных важного датчика.

Например, после удаления из автопилота радарного датчика, пользователи электромобиля стали сообщать об участившихся случаях самопроизвольного или «фантомного» торможения (phantom braking). А в конце декабря 2022 года электромобиль Model S попал в серьезную аварию в Сан-Франциско, причиной которой, по версии хозяина авто, стала неисправность автопилота.

Промежуточным итогом «крестового похода» Маска против радаров стала условная ничья. В последней версии программного пакета Hardware 4 для бета-версии полностью автономного (FSD) автопилота Tesla вновь появился блок с радарным датчиком высокого разрешения.

Компьютерное зрение — не все так однозначно

*Tesla Model Y с системой Tesla Vision. Источник: tesla.com.*

Плюсы CV

Цена. Именно стоимость массового производства является главным преимуществом сенсорных CV-систем перед лидарами. Даже с учетом того, что для точных результатов в них нужно применять достаточно дорогостоящие камеры с высоким разрешением, финансовый баланс все равно остается за компьютерным зрением.

Точность детекции. Когда дело касается определения сигналов светофора или дорожного знака, компьютерное зрение имеет неоспоримое преимущество перед технологией LiDAR. С помощью камер беспилотный автомобиль может легко найти объезд, определить главную дорогу или понять, на каком перекрестке нужно остановиться. Если верить исследованию ученых Корнельского университета, даже, когда речь заходит о трехмерной проекции, нейросети могут стать вполне достойной заменой лидарному сканированию.

Более простая эксплуатация. Хотя большое число датчиков может улучшить качество и объем получаемой информации, но для ее обработки потребуется более сложное ПО и конвейеры данных. Камеры гораздо проще интегрируются с автомобильными компьютерными системами, не требуют такой сложной калибровки, как радарные датчики и могут лучше приспосабливаться к меняющимся внешним условиям.

Органичный дизайн. Даже самые совершенные камеры, входящие в сенсорную систему с компьютерным зрением, легко вписываются в дизайн современных транспортных средств. Глядя на элегантные очертания автомобиля Model Y с распределенными по корпусу камерами системы Tesla Vision, сложно сказать, что такое решение нарушает знаменитое архитектурное правило Маска «best part is no part».

Минусы CV

Чувствительность к погодным условиям. Дождь, снег или яркие солнечные блики могут свести на нет все преимущества визуальных сенсоров беспилотного автомобиля. Пока инженеры бьются над решением этой проблемы, показания камер в беспилотных авто и средствах фотовидеофиксации на дорогах всегда дополняются данными с радаров.

Зависимость от других технологий. Чтобы превратить двухмерную картинку с камер в полноценный набор сведений об окружающем пространстве, требуется выполнить массу манипуляций с использованием сложных решений на базе искусственного интеллекта, включая компьютерное зрение и глубокое обучение.

Сложности с измерением расстояний. Камеры хорошо подходят для работы с визуальными данными, но мало помогают при определении дистанции или координат объектов. Именно по этой причине в комплектацию автопилота Tesla был включен обычный (и гораздо более дешевый) радар, подкрепляющий информацию с камер точными измерениями датчиков.

Заключение

Лидар или компьютерное зрение — можно ли назвать победителя в условном соревновании технологий? Как вы могли видеть из изложенного выше, у каждого решения есть свои сильные и слабые стороны, что на данном этапе делает однозначный выбор между ними практически невозможным.

Если выбирать лучший вариант «глаз» для беспилотных авто, исходя из приоритета безопасности, то таковым следует признать совместное использование всех видов сенсоров. Неслучайно, в одном из интервью Илон Маск заявил: «Радар с очень высоким разрешением был бы лучше, чем (Tesla Vision), но такого радара не существует. Я имею в виду, что Vision с радаром высокого разрешения будет лучше, чем чистый Vision».

Работая вместе, лидар и камеры будут предоставлять нейронным сетям достаточно полную картину окружающего, чтобы те смогли полноценно дублировать функции человеческого мозга при вождении, при этом исключая типичные ошибки водителей, которые часто становятся причиной трагедий на дорогах.

НЛО прилетело и оставило здесь промокод для читателей нашего блога:
— 15% на все тарифы VDS (кроме тарифа Прогрев) — HABRFIRSTVDS

Теги:

Хабы: