Исследователи компьютерного зрения обнаружили имеющийся у нас в распоряжении скрытый мир визуальных сигналов, где есть незаметные движения, выдающие то, что было сказано, и расплывчатые изображения того, что находится за углом
Специалист по компьютерному зрению Антонио Торральба, отдыхая на побережье Испании в 2012 году, заметил на стене своей комнаты в отеле случайные тени, которые, казалось, ничто не отбрасывало. В итоге Торральба понял, что изменившие цвет пятна на стене были не тенями, а тусклыми, перевёрнутыми изображениями патио, находившегося снаружи. Окно работало как пинхол – простейший вид камеры, в которой лучи света проходят через небольшое отверстие и формируют с другой стороны перевёрнутое изображение. На залитой солнцем стене это изображение едва можно было различить. Но Торральба осознал, что наш мир заполнен визуальной информацией, которую не воспринимают наши глаза.
«Эти изображения скрыты от нас, — сказал он, — но они постоянно нас окружают».
Пережитый опыт позволил ему и его коллеге, Биллу Фриману, также профессору из Массачусетского технологического института, осознать, что мир заполнен «случайными камерами», как они их называют: окнами, углами, домашними растениями и другими обыкновенными объектами, создающими скрытые изображения своего окружения. Эти изображения в 1000 раз менее яркие, чем всё остальное, и обычно они не видны невооружённым глазом. «Мы придумали способы вычленять эти изображения и делать их видимыми», — пояснил Фриман.
Они узнали, как много визуальной информации скрывается прямо на виду у всех. В первой работе они показали, что при съёмке при помощи обыкновенного iPhone изменений света на стене комнаты, из полученного видео можно воссоздать сцену за окном. Прошлой осенью они и их коллеги сообщили, что можно обнаружить человека, движущегося за углом, снимая на камеру землю рядом с углом. Этим летом они продемонстрировали, что могут снять на видео домашнее растение, а потом воссоздать трёхмерное изображение всей комнаты на основе теней, отбрасываемых листьями растения. Или они могут превратить листья в "визуальный микрофон", увеличивая их колебания и распознавая речь.
1) Патио снаружи комнаты отеля, где Антонио Торральба заметил, что окно работает как пинхол. 2) Размытое изображение патио на стене; 3) ему можно повысить резкость, прикрыв большую часть окна картоном, чтобы уменьшить размер отверстия. 4) Если перевернуть его вверх ногами, можно увидеть сцену снаружи.
«У нашей Мэри был баран», — говорит человек на аудиозаписи, воссозданной с движений пустого пакетика из-под чипсов, которые учёные снимали сквозь звуконепроницаемое окно в 2014 году (это первые слова, записанные Томасом Эдисоном в 1877 году на фонографе).
Исследования по поводу заглядывания за углы и построения предположений об объектах, не видимых напрямую, или «построение изображений не в прямой видимости», начались в 2012 году с работы Торральбы и Фримана по случайной камере, и с ещё одной переломной работы, проведённой отдельной группой учёных из MIT под руководством Рамеша Раскара. В 2016 году, в частности, и благодаря их результатам, Управление перспективных исследовательских проектов Министерства обороны США (DARPA) запустила программу REVEAL стоимостью $27 млн (Revolutionary Enhancement of Visibility by Exploiting Active Light-fields – революционное улучшение видимости с использованием активных световых полей). Программа финансирует появляющиеся по всей стране лаборатории. С тех пор поток новых идей и математических трюков делает построение изображений не в прямой видимости всё более мощным и практичным.
Кроме очевидного применения в военных и разведывательных целях, исследователи изучают вопросы применения технологии в робомобилях, роботизированном зрении, медицинской фотографии, астрономии, исследованиях космоса и спасательных миссиях.
Торральба сказал, что у них с Фриманом в самом начале работы не было идей по практическому применению технологии. Они просто разбирались с основами формирования изображений и с тем, что такое камера, из чего естественным образом развилось более полное исследование поведения света и его взаимодействия с объектами и поверхностями. Они начали видеть такие вещи, которые никто и подумать не мог искать. Психологические исследования, по словам Торральба, показывают, что «люди ужасно плохо умеют интерпретировать тени. Возможно, одна из причин этого состоит в том, что многие видимые нами вещи не являются тенями. И в итоге глаза бросили попытки их осмыслить».
Случайные камеры
Лучи света, переносящие изображение мира, находящегося за пределами нашего поля зрения, постоянно падают на стены и другие поверхности, после чего отражаются и попадают нам в глаза. Но почему эти визуальные остатки так слабы? Просто слишком много лучей идёт по слишком большому количеству направлений, и изображения размываются.
Для формирования изображения необходимо серьёзно ограничить лучи, падающие на поверхность, и увидеть только определённых их набор. Это и делает камера-пинхол. Изначальная идея Торральбы и Фримана в 2012 году состояла в том, что в нашем окружении есть довольно много объектов и различных свойств, естественным образом ограничивающих лучи света и формирующих слабые картинки, которые способен распознать компьютер.
Чем меньше апертура пинхола, тем резче получится изображение, поскольку каждая точка изучаемого объекта испустит только один световой луч под правильным углом, которому удастся пройти через отверстие. Окно в отеле Торральбы было слишком большим для того, чтобы изображение получилось резким, и они с Фриманом понимали, что в общем полезные случайные камеры-пинхолы встречаются довольно редко. Однако они сообразили, что анти-пинхолы («точечные» камеры), состоящие из любого небольшого объекта, блокирующего свет, формируют изображения в изобилии.
Билл Фриман
Антонио Торральба
Представьте, что вы снимаете внутреннюю стену комнаты через щель в жалюзи. Многого вы не увидите. Внезапно в вашем поле зрения появляется рука. Сравнение интенсивности света на стене при наличии и при отсутствии руки выдаёт полезную информацию о сцене. Набор лучей света, падающих на стену в первом кадре, на мгновение блокируется рукой в следующем. Вычитая данные второго кадра из данных первого, как говорит Фриман, «можно вычислить то, что блокировала рука» – набор световых лучей, представляющих изображение части комнаты. «Если изучать то, что блокирует свет, и то, что пропускает свет, — сказал он, — можно расширить набор мест, где можно встретить пинхол-камеры».
Вместе с работой по изучению случайных камер, воспринимающих небольшие изменения в интенсивности, Фриман с коллегами разработали алгоритмы, определяющие и усиливающие небольшие изменения цвета – такие, как изменение цвета лица человека при приливе или отливе крови, а также крохотные движения – это то, благодаря чему можно было записать разговор, снимая пакетик чипсов. Теперь они легко могут заметить движение в одну сотую пикселя, которое в обычных условиях просто потонуло бы в шуме. Их метод математически преобразует изображения в конфигурации синусоид. В полученном пространстве шум не доминирует над сигналом, поскольку синусоиды представляют средние значения, взятые над многими пикселями, поэтому шум распределяется по ним. Благодаря этому исследователи могут определять сдвиги синусоид от одного кадра видео к другому, усиливать эти сдвиги, а потом преобразовывать данные обратно.
Теперь они начали комбинировать все эти трюки для извлечения скрытой визуальной информации. В исследовании, описанном в прошлом октябре, которое проводила Кэти Боумен (тогда студентка под руководством Фримана, а ныне учёный из Гарвард-Смитсонианского астрофизического центра), было показано, что углы зданий работают как камеры, создающие грубое изображение того, что находится за углом.
Снимая полутень на земле рядом с углом (1), можно получить информацию об объектах, находящихся за углом (2). Когда невидимые объекты начинают двигаться, свет и тени от них двигаются под разными углами по отношению к стене. Небольшие изменения интенсивности и цвета обычно нельзя различить невооружённым глазом (3), но можно усилить при помощи алгоритмов. Примитивные видео со светом, идущим под разными углами к полутени, выдают наличие за углом одного движущегося человека (4) и двоих (5).
Грани и углы, как и пинхолы с точечными камерами, препятствуют прохождению солнечных лучей. Используя обыкновенные камеры, те же iPhone, при дневном свете, Боумен с коллегами снимали полутень на углу здания – область с тенями, подсвечиваемую подмножеством световых лучей, идущих из скрытого участка за углом. Если, к примеру, там пройдёт человек в красной рубашке, эта рубашка отправит небольшое количество красного света в полутень, и этот свет будет перемещаться по полутени, пока человек идёт, невидимый обычным глазом, но обнаруживаемый после постобработки.
В революционной работе, опубликованной в июне, Фриман с коллегами воссоздали «световое поле» комнаты – картину интенсивности и направления хода лучей света в комнате – из теней, отбрасываемых лиственным растением, стоявшим рядом со стеной. Листья работали в качестве точечных камер, каждый из которых блокировал свой набор световых лучей. Сопоставление тени каждого листа с остальными тенями выдавало это недостающий набор лучей, и позволяло получить изображение части спрятанной сцены. Учитывая параллакс, исследователи затем смогли свести все эти изображения вместе.
Такой подход даёт куда как более чёткие изображения, чем ранние работы со случайными камерами, поскольку в алгоритм встроены заранее приобретённые знания о мире. Зная форму растения, полагая, что естественные изображения должны быть гладкими, и учитывая несколько других предположений, исследователи смогли сделать определённые выводы, касающиеся сигналов, содержащих шум, что помогло сделать итоговое изображение резче. Технология работы со световым полем «требует знаний об окружающем мире для создания реконструкции, но и даёт вам много информации», — сказал Торральба.
Рассеянный свет
А пока Фриман, Торральба и их протеже раскрывают изображения, которые были спрятаны, в другом месте кампуса MIT Рамеш Раскар, специалист по компьютерному зрению, выступавший с докладами на TED, намеревается «изменить мир» и выбирает подход под названием «активное построение изображений». Он использует специализированные дорогие системы лазерных камер для создания изображений высокого разрешения, отображающих то, что находится за углом.
Рамеш Раскар
В 2012 году в рамках реализации идеи, посетившей его пять лет назад, Раскар с командой впервые создали технологию, при которой необходимо выпускать лазерные импульсы в стену. Малая часть рассеянного света сумеет обойти препятствие. А через небольшое время после каждого импульса они используют «камеру вспышек», записывающую отдельные фотоны со скоростью миллиарды кадров в секунду, чтобы обнаружить фотоны, отскочившие от стены. Измеряя время, потраченное фотонами на возвращение, исследователи могут узнать, насколько далеко они улетали, и в деталях воссоздать трёхмерную геометрию скрытых за препятствием объектов, на которых рассеялись фотоны. Одна из сложностей состоит в том, что для формирования трёхмерного изображения необходимо проводить растровое сканирование стены лазером. Допустим, что за углом прячется человек. «Тогда свет, отразившийся от определённой точки на голове, от определённой точки на плече, и от определённой точки на колене может прибыть в камеру в одно и то же время, — сказал Раскар. Но если посветить лазером немного в другое место, тогда свет от трёх этих точек уже не прибудет в камеру в одно и то же время». Необходимо скомбинировать все сигналы и решить «обратную задачу» для воссоздания скрытой трёхмерной геометрии.
Оригинальный алгоритм Раскара для решения обратной задачи требовал слишком много вычислительных ресурсов, а сам аппарат стоил полмиллиона долларов. Но была проделана серьёзная работа по упрощению математики и уменьшению расходов. В марте в журнале Nature была опубликована работа, задавшая новый стандарт эффективного и экономичного построения трёхмерных изображений объекта – в работе воссоздавали фигурку кролика – находящегося за углом. Авторы, Мэтью О’Тул, Дэвид Линдел и Гордон Вецтейн из Стэнфордского университета разработали новый мощный алгоритм для решения обратной задачи и использовали относительно недорогие камеры SPAD – полупроводниковые устройства, частота кадров у которых ниже, чем у вспышковых камер. Раскар, ранее работавший куратором двух авторов работы, назвал её «очень хитроумной» и «одной из моих любимых».
Предыдущие алгоритмы тонули в деталях: исследователи обычно пробовали обнаружить возвращающиеся фотоны, отразившиеся не от той точки стены, в которую светил лазер, чтобы камера могла избежать сбора рассеянного света лазера. Но направив лазер и камеру почти в одну точку, исследователи смогли составить карту исходящих и приходящих фотонов из одного "светового конуса". Рассеиваясь с поверхности, свет формирует расширяющуюся сферу из фотонов, которая вырисовывает конус, распространяясь в пространстве-времени. О’Тул (с тех пор сменивший место работы со Стэнфорда на Университет Карнеги-Меллона) перевёл физику световых конусов – разработанную учителем Альберта Эйнштейна, Германом Минковским в начале XX века – в лаконичное выражение, связывающее время полёта фотона с расположением рассеивающих поверхностей. Он назвал свой перевод «трансформация светового конуса».
Робомобили уже используют системы LIDAR для построения прямых изображений, и можно представить, что когда-нибудь обзаведутся SPAD, чтобы заглядывать за угол. «В ближайшем будущем такие датчики будут доступны и в переносном формате», — предсказывает Андреас Велтен, первый автор начальной работы Раскара от 2012 года, руководящий ныне группой, занимающейся построением активных изображений в Висконсинском университете. Теперь стоит задача «обработки более сложных сцен» и реалистичных сценариев, сказал Велтен, «а не просто тщательного создания сцены с белым объектом и чёрным задником. Нам нужна технология, позволяющая направить прибор и нажать кнопку».
Где находятся вещи
Исследователи из группы Фримана начали совмещать пассивный и активный подходы. В работе, проведённой под руководством исследователя Кристоса Трампулидиса, показано, что при активном построении изображений при помощи лазера точечную камеру известной формы, находящуюся за углом, можно использовать для воссоздания скрытой сцены, совсем не используя информацию о времени полёта фотонов. «И это должно получиться у нас при помощи обычной ПЗС-матрицы», — сказал Трампулидис.
Построение изображений не в прямой видимости когда-нибудь сможет помочь спасательным командам и автономным роботам. Велтен сотрудничает с Лабораторией реактивного движения НАСА, работая над проектом, направленным на построение на расстоянии изображений объектов, находящихся внутри пещер Луны. А Раскар с компанией используют их подход для чтения первых нескольких страниц закрытой книги, и для того, чтобы видеть в тумане.
Кроме аудиореконструкции, алгоритм усиления движений Фримана может помочь создавать медицинские устройства и системы безопасности, а также детекторы малых астрономических движений. Этот алгоритм – «очень хорошая идея», — сказал Дэвид Хогг, астроном и специалист по данным из Нью-Йоркского университета и Института Флатирон. «Я подумал – мы просто обязаны использовать его в астрономии».
Что касается вопросов неприкосновенности личной жизни, поднятых недавними открытиями, Фриман обращается к своему опыту. «Об этой проблеме я очень и очень много размышлял всю мою карьеру», — говорит он. Очкарик, любитель повозиться с камерами, всю свою жизнь занимавшийся фотографией, Фриман сказал, что в начале карьеры ему не хотелось работать ни над чем, у чего был бы какой-то военный или шпионский потенциал. Но со временем он стал думать, что «технология – это инструмент, который можно использовать по-разному. Если попытаешься избежать всего, что может иметь хоть какое-то военное применение, то ничего полезного не придумаешь». Он говорит, что даже в случае с военными, «существует очень широкий спектр возможностей использования вещей. Можно помочь кому-то выжить. И, в принципе, знать, где находятся вещи – это полезно».
Но его больше всего радуют не технологические возможности, а просто открытие явления, прятавшегося у всех на виду. «Мне кажется, что в мире полно всего, что ещё только предстоит открыть», — сказал он.