Изучение понятий через сенсомоторное взаимодействие / Хабр

Мысленный эксперимент

Представьте, что вы проснулись в странной комнате. Это не уютная спальня, в которой вы засыпали, а тускло освещенная камера с холодным влажным полом. На стенах потрескавшаяся штукатурка. И единственным входом и выходом предположительно является массивная железная дверь, запертая навесным замком изнутри. Немного выше на стене зарешеченное окно, пропускающее немного света. Если окинув взглядом всё вокруг вы пришли бы к выводу что вы в ловушке, это было бы вполне разумно. Выглядит это ужасно.

Но разве это удовлетворит вас? Вероятно, нет. Вы захотите исследовать комнату немного больше, возможно дернуть висящий замок, чтобы опробовать его надежность. Или захотите проверить на прочность эти оштукатуренные стены. Возможно несколько крепких ударов и вы проделаете дыру через которую сможете выбраться? А может у этих решеток на окне такие большие проемы, что вы сможете пролезть наружу? Взаимодействие со средой дает вам гораздо больше информации, чем пассивное наблюдение за ней. Зрение может быть гипотезой, но ее проверка требует реального взаимодействия с окружением.

Понятие понятий

Содержание и заключение — это понятия. Собака — это тоже понятие. Так же как и бег, лес, красота, зеленый или смерть. Понятия — это абстракции, которые мы выделяем из повседневного взаимодействия с миром. Они образуют многократно используемые строительные блоки знаний, которые необходимы людям для осознания мира.

Когда у нас есть концептуальное понимание чего-либо, это означает, что мы имеем какой-то опыт с этой вещью, мы каким-то образом овладели ею. В случае содержания, этот опыт означает, что мы можем определить в мире объекты-контейнеры, которые могут что-либо содержать, отделять их от «не контейнеров», положить какие-то вещи внутрь, вынуть их обратно, и предвидеть, что произойдет, если мы будет каким-то образом взаимодействовать с ними. Мы можем даже смотреть на новые вещи и понимать, могут ли они потенциально что-то содержать в себе или наоборот — можно ли их заключить в некий другой предмет.

Основные подходы концептуального понимания в ИИ, включая системы глубокого обучения, тренируемые на массивах данных, как «ImageNet», по-видимому, имеют некоторые из этих способностей, но им не хватает более глубинного понимания — опыта, который исходит из взаимодействия. Воспринимая изображение или даже видео, данные подходы могут быть в состоянии определить, есть ли на нем конкретный вид «контейнера», скажем, чашка, дом или бутылка, а также определить, где на изображении этот объект находится. Но они почти наверняка потерпят неудачу, когда столкнутся с неизученным до этого типом такого объекта. Просьба поместить себя куда-либо встретит у такой системы только полное непонимание, поскольку она соотносит понятие объекта-контейнера с массивом визуальных признаков, но не имеет активного понимания термина содержания внутри чего-либо.

Понятия из сенсомоторного опыта

Анри Пуанкаре был одним из первых, кто подчеркнул роль сенсомоторных представлений в человеческом понимании. В своей книге «Наука и гипотеза» он утверждал, что неподвижное существо никогда не сможет освоить концепцию трехмерного пространства. Не так давно несколько ученых-когнитивистов предположили, что концептуальные представления возникают в результате интеграции восприятия и действий. К примеру, O’Regan и Noë определяют сенсомоторный опыт как «структуру правил, определяющую сенсорные изменения, производимые различными моторными действиями», а пассивное наблюдение как «режим исследования мира, который опирается на знания сенсомоторного опыта». Noë добавляет, что «понятия — это, своего рода, подход к управлению тем что вокруг».

Несмотря на то, что важность сенсомоторного опыта была оценена внутри сообщества когнитивистов, эти идеи привели всего к нескольким конкретным вычислительным моделям, исследующим его роль в формировании понятий. В статье, которую мы представили на AAAI-18, мы показали вычислительную модель, которая изучает понятия посредством взаимодействия со средой.

Что мы сделали

Мы планировали реализовать и изучить две основные способности, которые составляют концептуальное понимание: способность активного обнаружения понятия и способность делать выводы или действовать, относительно этого понятия. Кроме того, мы хотели исследовать ситуации, в которых интерактивные способности более предпочтительны, чем пассивные подходы, и понять, как использование уже изученных простых понятий может помочь в изучении более сложных.

Мы начали с разработки специального виртуального полигона для изучения активных концепций, среды, которую мы называем PixelWorld (можно найти на github). В этом мире вещи устроены немного проще, чем в реальном. Это дискретное двумерное поле, содержащее пиксельного агента и один или несколько объектов другого типа, тоже состоящих из пикселей (к примеру, линии, точки или контейнеры).

Агент имеет довольно простую реализацию: он воспринимает только пространство 3×3 клетки вокруг себя и может двигаться вверх, вниз, влево, вправо или остановиться и послать некую информацию. Такая реализация требует изучения даже самых базовых представлений о мире, как само понятие объекта, так и понятие концепций взаимодействия. Несмотря на то что это может показаться излишней сенсорной депривацией, устранение богатого визуального восприятия позволяет нам сосредоточиться на роли трансформации многогранного поведения в осмысленное представление о мире.

Мы обучали агентов двум разным видам задач. Первой задачей было исследовать среду и сообщить, если в среде присутствует необходимое понятие. К примеру, контейнер. И это вознаграждалось, если ответ был верным. Второй задачей было совершить действие в отношении этого понятия. К примеру, поместить себя в этот контейнер. Это вознаграждалось, если он верно отрабатывал задачу и сообщал об этом. Для этого мы использовали обучение с подкреплением.

К примеру, мы научили агента определять, когда он был заключен в объекте в горизонтальной плоскости. Анимация ниже демонстрирует это поведение: агент проверяет, есть ли стена справа, потом проверяет, есть ли стена слева. Как только оба теста успешно пройдены, он сообщает, что «в заключении».

Следующего агента мы обучили понимать то же самое, когда он находится в окружении уже двух объектов по сторонам: цельный контейнер и контейнер с пробоиной. Анимация показывает, что агент забирается в правый объект, проверяя является ли он цельным контейнером. Обнаруживает дырку и далее забирается в левый контейнер, сигнализируя в итоге, что он в заключении.

Мы можем детальнее понять что делает агент, анализируя записи его действий:

Рисунок выше показывает каждое действие, совершенное агентом в приведенной перед этим анимации. Каждый квадратик представляет действие, время увеличивается слева-направо. «DOWN», «RIGHT», «UP» и «LEFT» — основные действия агента, а каждая строка «SMC» представляет частный случай сенсомоторного взаимодействия, который агент может выполнить. SMC (sensorimotor contingencies — прим. перев.) можно представить как небольшие программы, которые при выполнении используют последовательность основных действий, до тех пор пока агент не решит остановиться и отправить один из двух сигналов, которые означают либо успех («SIG1», зеленый), либо поражение («SIG0», красный). Каждый из этих SMC возник как агент, который был обучен решению более простой концептуальной задачи. К примеру, «SMC 3» был обучен забираться в контейнер, если в начале находится на полу слева от него. И это первая вещь, которую агент делает в анимации с 0 по 11 шаг. Таким образом, агент может выполнять сложные задачи, такие как сделать итоговый вывод о заключении, выполняя последовательность соответствующих низкоуровневых SMC.

После этого мы расширили наши концепции за пределы термина заключения и включили такие понятия как нахождение на вершине объекта или нахождение слева от двух объектов:

Обучение этих агентов только в одной среде было бы недостаточно, поскольку для понимания того, какие аспекты среды имеют отношение к концепциям, а какие нет, необходимо множество разных сред. Наличие такого множество типов сред также позволяет нам определить типы, в которых активный подход и повторное использование ранее выработанного поведения имели бы выигрыш перед пассивными подходами.

Чтобы обеспечить эту потребность мы применили специальный тип записи, основанный на логике первого порядка, чтобы подготовить массивы данных для экспериментов, используя логические выражения как для генерации сред, так и для их разметки в отношении того, какое понятие представлено внутри них. Мы создали 96 таких массивов, организованных в учебные блоки от простых до сложных понятий. Как система записи, так и сами среды, упомянутые выше, содержатся в релизе PixelWorld.

Что мы получили

Мы сравнили наш активный подход с пассивным, использующим сверточную нейронную сеть, обученную определять, присутствует ли понятие, на основе статичного восприятия всей среды целиком. Для понятий, использующих «заключение», интерактивный подход явно превосходит сверточную сеть. Для понятий включающих разнообразные объекты множества форм и пространственных отношений, мы обнаружили, что сверточная сеть в некоторых случаях работала лучше, но хуже в других. Необходимо отметить, что пассивные подходы по определению не могут взаимодействовать со средой, поэтому в этом случае единственное, что можно было ожидать — это статичное обнаружение понятия. Только наш активный подход может быть успешным в средах, которые требуют понимания какого-либо взаимодействия или отношения с понятием.

Также мы обнаружили, что повторное использование поведения улучшило результаты для обеих задач (обнаружение и взаимодействие), с наиболее явными результатами в тех случаях, где понятия включали множественные объекты или требовали сложных последовательностей в поведении.

Выводы

Наша работа показывает, что интерактивные сенсомоторные концептуальные представления могут быть формализованы и усвоены. В то время как эксперименты, отраженные в данной статье помогли обозначить роль взаимодействия в общем виде, их объединение с подходом генеративной системы зрения могло бы быть полезным для изучения понятий реального мира. Более того, объединение сенсомоторных представлений с техниками вроде «Schema networks» позволило бы агенту иметь внутреннее представление внешнего мира, которое он может использовать для симуляции и планирования.

Хотя сбегающий искусственный интеллект — это тема, которую лучше оставить для фантастических фильмов, мы верим, что извлечение понятий из сенсомоторного взаимодействия — один из ключей к выходу за пределы современных пассивных техник искусственного интеллекта.