Как ИИ научился водить машины (и не только) / Хабр

Умная машина, которая объезжает переходящих дорогу уточек и умеет парковаться сама, появилась не так давно. Но для человечества это была целая эпопея, которая длилась почти 500 лет (!)

Сегодня мы взглянем на исторический таймлайн, который привел нас к самопилотриуемым машинам, от первой искры до умных AI‑автопилотов. Спойлер: это было коллективное усилие целой плеяды блистательных умов из разных поколений и эпох.

Первая искра зажигания…

О технологии, как будто сошедшей со страниц носовского «Незнайки», люди грезили давно. В мифах и фольклорных сюжетах часто фигурирует колесница, телега, а то и печь, как у нашего Емели, которая может ехать сама, успешно проводя сложные маневры.

Сделать сказку былью люди мечтали, когда в моде еще были камзолы, а сто грамм черного перца стоили как арабская лошадь. И конечно же у истоков прожекта стоял «наше все» Леонардо ди сер Пье́ро да Винчи. Он спроектировал модель самодвижущейся тележки, которая представляла собой нечто похожее на большую заводную машинку.

Тележка-самотолкайка да Винчи. — Тележка‑самотолкайка да Винчи.

Ее двигатель включал в себя две мощные пружины, в которых была заложена кинетическая энергия, и систему зубчатых колесиков, приводивших конструкцию в движение. Что интересно, угол поворота задних колёс регулировался за счёт сложного дифференциального механизма — что‑то подобное люди переизобретут только 400 лет спустя, когда начнут собирать первые автомобили на ДВС.

К сожалению, да Винчи так и не собрал «самотолкайку» лично, но у нас есть ее нынешние реконструкции.

Тележка способна проехать около 40 метров на скорости в 4–5 км/ч и, что интересно, Леонардо даже добавил к умозрительному концепту деревянный ручник, возможно помня предательски холмистую местность Флоренции. А еще там был программируемый поворотный механизм, который заставил бы тележку ехать по заранее заданному маршруту!

Чертёж механизма тележки из записной книжки да Винчи

По понятным причинам, леонардовская концепция сильно опережала свое время: ни тебе технологической базы, ни массового спроса. Ослепительная вспышка идеи в итоге растворится во мраке почти на 500 лет. А посмотреть на самотолкайку в действии можно здесь.

Радиоволны рулят

Вероятно так и подумал Фрэнсис П. Гудина, когда ему пришла мысль оборудовать седан «Чендлер» 1919 года выпуска системой радиоуправления.

Она была до одури простая, но, кажется, с проблесками гениальности:

Оператор передавал радиосигналы на определённых частотах или с простой модуляцией, которые поступали на антенну‑ресивер внутри «Чендлера», мечтательно названный «American Wonder».
Каждый тип радио‑сигнала соответствовал определенной команде: «вперёд», «назад», «вправо», «влево», «тормоз».
Радиосигнал приводил в действие маленькие электрические моторы или электромагниты, которые были жестко связаны с рулевой тягой и педалью тормоза. Они корректировали рулеж и сцепление.

Фамилия Гудина не случайно созвучна с Гудини. Летом 1925 года он устроил натуральный иллюзион на нью‑йоркских улицах, пустив по ним караван из «Американского Чуда» и плетущейся за ним контрольной машины, откуда команда Гудины управляла дивом на колесах. Как это можно применять на практике было пока непонятно. Но ясно одно: машина может ездить и без водителя в салоне!

“Американское Чудо” — «Американское Чудо»

Во время торжества инженерной мысли местные крестились в ужасе, может кто‑то даже падал в обморок: на их глазах не спешно, едва ли не натыкаясь на фонарные столбы, ехала машина без человека внутри. А педали газ‑тормоз двигались в воздухе сами — чем не призрачный рикша Киплинга?

Через пять лет после фокуса Гудины промдизайнер Норман Бел Геддес явит миру свою знаменитую выставку «Футурама» ~~с блекджеком~~ с системой полу‑автономного транспорта.

Фрагмент из “Футурамы” — Фрагмент из «Футурамы»

По его замыслу, движение умных машин должно регулироваться, среди прочего, магнитами, находящимися внутри дорожного покрытия — немного напоминает принцип, реализованный в советской игрушке «За рулем». И хотя многие идеи из визионерской «Футурамы» в итоге перекочевали в реальную жизнь — например вертолетные площадки на высотных зданиях — от магнитных чудо‑шоссе пришлось отказаться: строить их было бы долго, дорого и сложно.

Недостаточная видимость на дороге

Итак, отгремела Вторая мировая, которая показала силу и мощь компьютерной технологии, пускай и зачаточно‑механической на тот момент. С наступлением мира приходит эра компьютеров.

А следом за ней, под скайнетовские литавры, начинается подъем Искусственного Интеллекта. Военные очень заинтересовались думающими машинами, особенно теми, которые еще бы обладали собственным зрением.

В 1959 люди начнут активно изучать компьютерное видение, начиная со знаменитого «кошачьего эксперимента», когда Дэвид Хьюбел и Торстен Визель выявили, что зрение кота строится на иерархическом преобразовании зрительной информации, а не просто на взаимодействии глаза со светом.

А это значит, что компьютер тоже можно научить узнавать объекты. Просто их нужно разделить с помощью какого‑нибудь фильтра на визуальные паттерны: границы, линии, пятна, на основе которых и будет угадываться силуэт объекта.

Значимым достижением стала разработка современной модификации преобразования Хафа, используемого для выделения объектов на изображениях. Вкратце, алгоритм берет разрозненные точки и границы объектов на картинке и переносит их в специальное математическое "пространство параметров". Там каждая точка начинает, грубо говоря, "голосовать" за то, какой фигуре она может принадлежать. В том месте, где набирается максимум "голосов", алгоритм делает вывод, что здесь проходит искомая линия или контур. Именно это метод стал основой для способности Шейки видеть и различать контуры пространства.

Shakey был высоким и статным из‑за своей конструкции, куда входили шасси, шаговый двигатель, оптический дальномер, ТВ‑камера и «палка‑толкалка», чтобы перемещать предметы. Из‑за роста он трясся во время езды, за что и получил свое имя, означающее «Трясун». Shakey за работой.

Камера в его анатомии транслировала беспрерывной черно‑белый фид, который с помощью перекрестного оператора помогал Shakey ориентироваться в пространстве. Его зрение опиралось на две операционные стадии:

Первая стадия. Выделение контуров и краёв. Это алгоритмы, близкие к тому, что позже уже связывали с преобразованием Хафа. Они позволяли выделять прямые линии и углы, которые подвергались дальнейшей интерпретации.

Вторая стадия. На базе зафиксированных очертаний система Shakey строила геометрическую модель комнаты: стены, дверные проемы, платформы, пандусы и «блоки». Эти данные переводились в символические объекты — треугольники или прямоугольники — с которыми затем работал логический планировщик робота.

Данные о мире, полученные из камеры и дальномеров, передавались на промежуточный уровень восприятия, который превращал «пиксельную карту» окружающего пространства в символическую карту состояний.

Затем, в работу вступал верхний уровень, так называемый планировщик STRIPS, который уже не «видел» пикселей, а работал с этой символической моделью. Он помогал роботу понять как подъехать к платформе или забраться на пандус и столкнуть с него очередную коробку, утолив жажду Shakey к анархии.

И о чудо! Робот действительно умел избегать препятствий. Правда делал он это не реактивно и не «с листа» — прежде чем отправиться в вояж по маршруту, он внимательно изучал комнату, составляя карту. Но это все равно был прорыв.

Highway Star

Итак, Shakey наощупь ползал, чтобы другие потом могли летать.

По всей видимости, его наработки в компьютерном зрении и взаимодействии с пространством повлияли на первый уже по‑настоящему самопилотируемый автомобиль, чья выхлопная труба торжественно огласила тренировочный автодром города Цукубы на юге префектуры Ибараки — дивном месте, где в изобилии растут багряные кусты кохии.

В 1977, на скорости не превышающей 30 км/ч двигалась первая в истории самопилотируемая машина. Это не была перепиленная Хонда или Тойота — прототип собирали специально для эксперимента, оснастив кластером из двух черно‑белых камер и подсоединенного к ним через аналого‑цифровой преобразователь бортового компьютера.

Интерьер цукубской машины. Источник: researchgate.net.

Зрение цукубской машины работало почти по тому же принципу что и у американского робота. Камеры давали аналоговый сигнал, который затем оцифровывался в виде матрицы пикселей с очень зашакаленным разрешением.

Компьютер анализировал яркость в полученных кадрах, чтобы увидеть более яркие, белесые линии дорожной разметки и затем совершить рулевое воздействие.

Система «дергала за ниточку», обнаруживая малейшее изменение полосы. Затем вычислялось, какое рулевое отклонение нужно, чтобы центр машины оставался строго в центре полосы. Команда передавалась на рулевой механизм через обычный электропривод, компенсируя угловое смещение авто относительно полосы.

Нейросетей с глубоким обучением тогда еще не было и в помине, поэтому обработка изображения мало чем отличалась от той, что была у Shakey: выделение границ, поиск линий, фильтрация шума. Вот так на свет появилась первая автоматическая система удержания дорожной полосы.

Пускай и черепашьим шагом, но цукубская машина въехала в будущее.

Смотри куда прешь, LIDAR

Восьмидесятые подарили миру не только маллет и киберпанковский футуризм, но еще и беспилотный автомобиль, который станет максимально близким к современному.

Знакомьтесь — NavLab 1, на базе грузового фургона Шевроле. Эта чудо‑машина действительно перемещалась почти сама по себе, а помогала ей в этом уже настоящая нейросеть по имени RALPH (Rapidly Adapting Lateral Position Handler), которую тренировали на изображениях дороги и на рулевых маневрах, соответствующих определенной дорожной ситуации.

Минивэн был выбран не в целях рекламы и не ради американского духа. Все нутро фургона занимала умная начинка машины, куда входили 3 рабочие станции Sun, видеокамеры, GPS‑приемник, а также суперкомпьютер Warp. Сей компьютер обрабатывал 100 мегафлопс в секунду — в тысячи раз слабее современного китайфона — но при этом был размером с холодильник и питался от здоровенного пятикиловатного генератора.

И что еще было революционно, NavLab 1 была оснащена сканирующим лазерным дальномером, который по сути играл роль лидара: он испускал лазерный луч и по времени отражения измерял расстояние между собой и различными объектами, строя упрощенную 3D‑картину окружения. Это позволяло машине получать дополненную картину мира, в довесок к данным с видеокамеры и радаров.

NavLab 1 хоть и была довольно самостоятельная, все же без человека там не обходилось: оператор сидел в кабине готовый перехватить управление в любой момент.

А вот версия NavLab 5 пустилась в амбициозный вояж из Питтсбурга до Калифорнии. Это было в 1995 году и новый фургон, в этот раз Понтиак, бодро держал марш целых 9 дней, не добрав каких‑то 144 километров до заявленных 4 501 км.

Дин Померло́ и Тодд Джокем готовятся покорять американские дороги вместе с РАЛЬФом. Надпись на плакате: «Или Калифорния, или ничего!» Источник: robopgh.org.

Кстати, это эпоха была богата на эксперименты с системами «без водителя». В Европе примерно в это же время начался проект Prometheus, в рамках которого беспилотный Alfa Romeo GTA, был отпущен в «вольное плавание» по европейским магистралям.

Машина управлялась двухкамерным стереозрительным модулем и программным комплексом GOLD, который умел автоматически выделять одну линию разметки и корректировать рулеж. GOLD был устойчив к воздействию посторонних шумов и поэтому успешно управлял машиной в не совсем идеальных и не совсем лабораторных условиях.

Нулевые‑рулевые и десятые разделительно‑полосатые

В 2000-х обучение на данных наберет еще большие обороты. Теперь, когда в распоряжении есть все, от лидаров до GPS и IMU‑сенсоров, можно свободно учить автономную машину работать в режиме ad libitum, чтобы она могла приспосабливаться к почти любой дорожной ситуации самостоятельно.

Как будто угадывается отдаленное сходство с Shakey. Источник: Яндекс.

В середине нулевых на рынке появятся дешевые процессоры для параллельных матричных вычислений. Авторы систем начнут собирать большие датасеты в тысячи сэмплов для обучения простеньких ИИ‑моделей.

Например, в арсенале появятся многослойные перцептроны (MLP), которые будут играть роль «классификаторов», управляя движением машины. А также CNN‑подобные модели, которые научаться делать локальное сканирование изображений и «подмечать» разнообразные элементы в визуальных данных: края, текстуры, определенные паттерны и так далее.

Не маленькую роль сыграл челлендж под эгидой ДАРПА в 2004 году, где в нешуточной схватке помимо остальных участников сошлись Карнеги Меллон и Стэнфорд. Правда битва титанов вылилась в фиаско: ни одна из пяти соревнующихся машин не сумела самостоятельно пересечь пустынный ландшафт. Удастся им это только год спустя.

Darp Grand Challenge. Фото с места события. Источник: lemonodor.com.

Ну а в десятых начнется время глубоких сверточных нейросетей и трансформеров, которые будут обучаться уже на миллионах тренировочных сэмплов. Это позволит им гораздо лучше различать объекты на дороге и некоторые другие малозначащие детали (например пешеходов).

Лидары, камеры и другое железо подешевеют и уйдут в массмаркет. Появятся системы уровня 4 — «полный автопилот», то есть способные перемещаться по тестовой зоне размером с целый город.

Сейчас говорят, что к началу 2040-х «робот за рулем» займет 80% транспортного сообщения. Сначала он будет внедряться в предсказуемых и ограниченных средах по типу складов, но затем начнет занимать одну магистраль за другой.

Так это или нет говорить еще ну... очень рано. Но если однажды роботакси вдруг заменят собой обычные, будем надеяться, что они будут вежливы и не станут ни на кого наезжать, как это было в носовском Солнечном городе. Ну и будут бесплатными.

Как ИИ научился водить машины (и не только)