Роботы будущего будут обучаться благодаря любопытству и самостоятельному определению целей / Хабр

Представьте себе, что друг просит вас помочь прибраться в его комнате, полной разных вещей и мебели. Но представьте также, что помогать вам в этом он не будет, а просто опишет вам, показав фотографии, то, как ему хотелось бы, чтобы его комната выглядела в итоге. Задача может показаться скучной, но любой из нас справится с ней. Будучи детьми, мы открывали новые объекты, научились распознавать их и выработали навыки обращения с ними. Подталкиваемые любопытством, мы постепенно нарабатывали визуальное, внимательное и сенсорно-моторное знание, позволяющее нам, взрослым, обращаться с нашим физическим окружением по нашему выбору.

Сегодняшние роботы не приспособлены для таких задач. Представьте гуманоидного робота, помогающего прибираться в комнате. Допустим, вы показали роботу комнату в нормальном, убранном состоянии, и когда в ней наступил беспорядок, вы приказываете роботу убрать её до первоначального состояния. В таких условиях было бы очень утомительно учить робота тому, куда направлять внимание, и как управляться с каждым из объектов, чтобы положить его в правильной позиции на нужное место, или как выстроить последовательность действий.

И хотя ежегодно появляются новые, сложные роботы и продвинутые алгоритмы, выполнение сложных обязанностей и поиск неизвестных решений для разных задач требует утомительного программирования деталей, связанных с моторикой нижнего уровня. В лучшем случае роботы способны обучиться небольшому набору негибких действий. Сравнивая сегодняшние достижения ИИ с биологическим интеллектом, мы увидим, что у ИИ всё ещё есть ограничения в автономности и гибкости.

Роботы будущего должны будут уметь учиться автономно постигать своё окружение, то есть, самостоятельно определять цели и эффективно получать навыки для их достижения, на основании приобретения, изменения, обобщения и рекомбинации полученных ранее знаний и навыков. Это позволит им, с небольшим дополнительным обучением, менять окружение с текущего состояния до широкого спектра конечных состояний, заданных в качестве цели пользователем. Вопрос в том, как мы можем создать роботов будущего, способных справиться с такой задачей?

Проект GOAL-Robots

В поисках ответа на этот вопрос и был начат проект, важный для применения ИИ – европейский проект, курируемый лабораторией материализованной вычислительной нейрологии (Laboratory of Computational Embodied Neuroscience, LOCEN), итальянской исследовательской группой, базирующейся в Институте когнитивных наук и технологий, принадлежащем итальянскому государственному исследовательскому комитету (ISTC-CNR).

Проект "GOAL-Robots – целевые автономные обучающиеся роботы открытой системы" [Goal-based Open-ended Autonomous Learning Robots] попал на первое место в списке 11 проектов, получивших финансирование среди 800 участников конференции EU FET-OPEN call (Future Emergent Technologies), и является частью исследовательской программы Horizon 2020 EU. LOCEN и её научный руководитель Жанлука Бальдассар [Gianluca Baldassarre] будут координировать консорциум, включающий ещё три важных европейских исследовательских группы:

1. Лаборатория психологии и восприятия (LPP) из Франции, под руководством Кевина О'Регана, работающая в Парижском институте неврологии и когнитивных наук имени Декарта, будет проводить эксперименты, связанные с приобретением навыков и целей у детей.

2. Франкфуртский институт передовых исследований (FIAS) в Германии, под руководством Йохена Триша [Jochen Triesch], сконцентрируется на разработке визуальных систем и моторики по подобию биологических.

3. Группа специалистов по робототехнике под руководством Яна Питерса [Jan Peters], Дармштадтский технический университет (TUDa) в Германии будет заниматься демонстрацией роботов для проекта.

GOAL-Robots следует за предыдущим европейским проектом IM-CLeVeR («внутренне мотивированные кумулятивно обучающиеся универсальные роботы»), в котором LOCEN с предыдущими партнёрами изучали роль внутренней мотивации (ВМ) в побуждении самостоятельного обучения как в живых организмах, так и в роботах. Научное исследование ВМ началось с наблюдения за тем, как дети из любопытства исследуют и взаимодействуют с окружающим миром, получая знания о том, как работают вещи, и приобретая большой репертуар сенсорно-моторных навыков для взаимодействия с ними.

Если любопытство и ВМ являются основой универсальности и адаптивности человека, то ИИ с архитектурой и алгоритмом, эмулирующими ВМ, могут помочь в создании «мотивационного двигателя», который будет вести роботов через автономный открытый процесс обучения, не требующий постоянного программирования и тренировки людьми.

GOAL-Robots также добавляет важный компонент для разработки открытого обучения роботов: цели. Цель – это внутреннее представление личности о мире, состоянии тела или событии, или наборе событий, имеющее два важных свойства. Первое, личность может вызвать это представление даже при отсутствии восприятия соответствующего состояния мира или события. Второе, этот вызов обладает мотивационным эффектом, то есть он может повлиять на выбор, фокусировку внимания личности и поведение, и вести его процесс обучения к достижению цели. Возможность создания мотивационных целей по желанию, пусть и абстрактных, и их использование для выбора действий и обучения, это ключевой элемент поведенческой гибкости и возможности обучения биологических личностей. Участники проекта верят, что обеспечение роботов подходящими для формирования и преследования обучающих целей механизмами радикально увеличит их потенциал самостоятельного обучения.

Задачи и идеи

Идея проекта в комбинации механизмов, связанных с ВМ и мотивирующей силы целей. В частности, ВМ будет стимулировать роботов на самостоятельные открытия новых интересных событий, произошедших благодаря действиям их самих. Роботы будут исследовать своё окружение под влиянием любопытства и для самостоятельной постановки всё более сложных целей, и использовать их для получения различных навыков в открытом стиле.

Открытый процесс получения способностей требует сложных механизмов и интеграции различных компонентов архитектуры. В частности, роботам нужно будет получать новые навыки без нарушения предварительно полученных, и в то же время, повторно использовать предварительно полученные навыки для ускорения получения новых (передача знаний). Кроме того, им нужно будет научиться комбинировать предварительно полученные навыки для создания более сложных. Это самые важные задачи ИИ на сегодня. Для их решения проект будет использовать передовые алгоритмы, как для обработки сенсорной информации (например, при помощи сетей глубокого обучения), так и для организации и использования знаний, относящихся к моторике (например, с использованием динамических примитивов движений и нейросетей с эффектом эхо [echo-state neural networks]).

Все механизмы, связанные с разными частями процесса обучения, необходимо будет интегрировать в одной управляющей архитектуре: высокоуровневые процессы формирования целей будут объединены с мотивационными слоями, в которых, на основе ВМ, робот будет формировать и выбирать цели. Цели будут постепенно связаны с нижним уровнем контроллеров, чтобы робот смог вспоминать приобретённые навыки для достижения требуемых целей и строить более сложные навыки на основе комбинации предыдущих. Перенос знаний между разными умениями будет интегрирован с учётом необходимости устранить взаимные помехи, и так далее. Эти механизмы пригодятся не только для фазы самостоятельного обучения, но и для возможности использования полученных знаний пользователем.

Каждый год проект будет представлять «робота-демонстратора», и сложные роботизированные платформы (типа iCub или Kuka) будут управляться архитектурами, разработанными в проекте для решения задач возрастающей сложности. Эти демонстраторы не только покажут подвижки в проекте, но и станут критериями для сравнения прогресса в разработке самостоятельных роботов.

Итоговый демонстратор должен будет столкнуться с задачей, сформулированной в начале статьи: возможно ли, чтобы робот демонстрировал универсальность и приспособляемость, сходные с человеческими, взаимодействуя с реальным миром? В частности, роботам дадут задание: а) изучить соответствующее порядку положение нескольких объектов, находящихся в контейнерах и на полках, и б) воспроизвести это состояние после того, как пользователь передвинет и поменяет объекты местами.

Если проект GOAL-Robots выполнит свои обещания, вам уже не нужно будет беспокоиться насчёт ленивых друзей: когда они попросят у вас помощи, вы просто попросите помочь им своих искусственных друзей!