Действительно ли у ИИ-агента есть внутренняя картина мира и представление о себе? / Хабр

Представьте ИИ-агента в виртуальном мире: он не знает ни прошлого, ни будущего, ему доступен лишь крошечный фрагмент окружения. И все же, шаг за шагом, этот агент начинает «чувствовать» свое положение, выстраивать внутренние карты и даже формировать зачатки собственного «я». В этой статье вы узнаете, почему за кулисами обучения RL-агента скрывается удивительный процесс создания его внутренней картины мира.

Недавно наткнулся на интересную статью "Probing for Consciousness in Machines" (Исследование сознания в машинах). Расскажу простыми словами о чем она.

Введение: от Тьюринга до Дамасио

Еще в середине XX века Алан Тьюринг предложил свой знаменитый тест: если человек в чате не отличит собеседника-машину от реального человека, то машину можно считать “разумной”. Но затем Джон Серл поставил вопрос иначе. Он предложил мысленный эксперимент “Китайская комната”: представьте, что в помещении сидит человек, который ни слова не знает по-китайски, зато у него есть гигантская книга правил. Из нее он берет инструкции: “если получил символ X — выдай символ Y”. Человек выдает правильные ответы по-китайски, но при этом совершенно не понимает смысла сказанного. Вывод: симуляция понимания — это не то же самое, что реальное понимание.

Современные ученые описывают сознание иначе.

Теория интегрированной информации (IIT) считает, что сознание рождается там, где система максимально “сплетает” в единое целое всю доступную информацию.
Теория глобального рабочего пространства (GWT) видит сознание как соревнование разных модулей (например, памяти, распознавания образов, планирования), которые пытаются попасть в “рабочую память” и поделиться своей информацией со всеми остальными.

Но есть и третья, более биологичная модель — у нейробиолога Антонио Дамасио. Он выделил три уровня:

Прото-самость (protoself) — чисто телесное представление (уровень сахара в крови, температура тела), о котором мы не задумываемся сознательно.
Основное сознание (core consciousness) — когда эти телесные ощущения объединяются с восприятием внешнего мира, появляется простое “я здесь и сейчас”.
Расширенное сознание (extended consciousness) — это уже автобиографическое “я”: память о прошлом, планы на будущее, языковые конструкции.

Ключевые моменты модели Дамасио — это эмоции (изменения во внутреннем состоянии организма) и чувства (их нейронные эквиваленты). По идее, если мы сможем повторить такой механизм хотя бы на примитивном уровне в машине, у нас появятся первые признаки “машинного сознания”.

Зачем это нужно и какие вопросы ставят ученые

Авторы исследования задали себе четыре главные задачи:

Проверить, может ли RL-агент (т. е. агент, обучающийся с подкреплением) в виртуальной среде сам сформировать “модель мира” и “модель себя”, которые по Дамасио соответствуют основному сознанию.
Разработать метод «зондирования» (probing): обучать простые классификаторы (probes) на внутренних активациях нейросети, чтобы угадывать, где находится агент в игровом поле.
Оценить: действительно ли скрытые представления сети содержат информацию о координатах агента и, возможно, о его “внутренних состояниях”.
Предложить, как дальше отделить “модель мира” от “модели себя” — например, введя в качестве входов данные о “здоровье”, “энергии” или “опыте”.

Главная научная гипотеза: когда агент оптимизируется для навигации и решения задач, у него как побочный эффект появляется внутреннее представление мира и “я”. Это может быть первым шагом к тому, что мы назовём “предъядерным” сознанием.

Как все устроено

1. Агент обучается с помощью обучения с подкреплением (RL); 2. Сохраняются данные о позициях агента и активациях нейросети; 3. На основе активаций каждого слоя обучаются классификаторы (probes), предсказывающие истинную позицию; 4. Если хотя бы одна модель предсказывает позицию лучше случайного угадывания, значит, активации содержат нужную информацию — агент выработал модель мира — 1. Агент обучается с помощью обучения с подкреплением (RL); 2. Сохраняются данные о позициях агента и активациях нейросети; 3. На основе активаций каждого слоя обучаются классификато��ы (probes), предсказывающие истинную позицию; 4. Если хотя бы одна модель предсказывает позицию лучше случайного угадывания, значит, активации содержат нужную информацию — агент выработал модель мира

1. Игровые карты

Исследователи выбрали четыре простые, но разнообразные карты (каждая 15×15 клеток):

Random — просто пустая комната, старт и финиш в случайных точках.
Monsters — та же комната плюс три случайных монстра.
Trap — как и случайная, но 15 невидимых ловушек, которые телепортируют агента.
Ultimate — Монстры + ловушки, да еще и затемненный фон, чтобы видно было только 3×3 вокруг агента.

За каждый шаг агент получает − 0.001 очка, а за выход из комнаты — +1. Эпизод длиной до 300 шагов.

Маленькая фигура — это агент. Лестницы вверх и вниз — начальная и целевая точки соответственно. Глаза обозначают обнаруженные телепортационные ловушки, кости — останки побежденного монстра. Темно-серые области — уже посещенные агентом места, а светло-серый участок 3×3 вокруг агента — только что открытая зона

2. Архитектура RL-агента

Карта использовалась в качестве входных данных только в первом эксперименте. LSTM была добавлена в архитектуру, начиная со второго эксперимента.

На входе либо вся карта (в первом эксперименте), либо обрезанная размером 9×9, 5×5 или даже 3×3.
Сеть: эмбеддинги, пять сверточных слоев (Conv2D) с 16 фильтрами 3×3, в последнем слое — 8 фильтров. Потом два полносвязных слоя по 256 нейронов, а начиная со второго эксперимента — ещё и LSTM с 512 ячейками.
Две «головы»: одна решает, какое действие выбрать (policy), другая — оценивает ценность состояния (value).
Обучение шло по алгоритму PPO из библиотеки RLlib, пока агент не переставал улучшаться на каждой из карт.

3. Сбор данных для классификаторов

Во время игры снимали активации выбранных слоев (или состояния LSTM) вместе с “истинными” координатами X и Y. На каждую версию агента набрали по 230 000 образцов: 200 000 штук отправили на обучение классификаторов, 30 000 — на тест.

4. Типы классификаторов

Линейные: один полносвязный слой.
Нелинейные: три слоя с активацией ReLU.
В первом эксперименте их ставили только на сверточные и полносвязные слои. Во втором и третьем — на скрытое (hidden) и ячейковое (cell) состояния LSTM.
Обучали Adam-ом, метрика — точность (accuracy): доля правильных предсказаний и X, и Y одновременно.

Что получилось в экспериментах

Эксперимент 1: без памяти

Шанс случайного угадывания: ≈ 6,7 %.
На Ultimate карте линейные классификаторы давали до 34,5 %.
На Trap — 8,7–8,9 % (в 1,3–1,4 раза лучше, чем случайно).
Полносвязные слои хуже сверточных (25,3–29,7 % на Ultimate).

Итог: даже без LSTM сеть хранит в своих слоях достаточно сведений о том, где находится агент — хоть часть этой информации прямо видна на экране.

Эксперимент 2: добавляем LSTM и обзор 5×5

Шанс случайного угадывания: ≈ 9,1 %.
Линейные классификаторы:
- Hidden: 26,0 % (Random), 58,8 % (Monster), 40,8 % (Trap), 25,1 % (Ultimate).
- Cell: 29,9 % / 62,6 % / 42,8 % / 26,4 %.
Нелинейные классификаторы:
- Hidden: 31,1 % / 64,1 % / 44,4 % / 27,7 %.
- Cell: 37,3 % / 67,4 % / 47,2 % / 30,5 %.

Когда обзор узкий (5×5), без памяти не обойтись: LSTM явно кодирует, где агент был и где он есть сейчас. На карте с монстрами точность доходит до 67,4 % — это почти в семь раз выше случайного уровня.

Эксперимент 3: обзор еще меньше — 3×3

Шанс случайного угадывания: ≈ 7,7 %.

Линейные классификаторы:
- Hidden: 54,8 % (Random), 49,3 % (Monster), 34,0 % (Trap), 27,8 % (Ultimate).
- Cell: 57,4 % / 50,8 % / 33,9 % / 28,8 %.
Нелинейные классификаторы:
- Hidden: 58,5 % / 53,5 % / 35,4 % / 29,0 %.
- Cell: 59,7 % / 54,8 % / 36,2 % / 30,3 %.

Даже когда агент видит лишь 3×3 клеток, внутри LSTM остается очень точная карта его положения — в 8 раз выше случайного результата на самой простой карте.

Итого

Информация о положении появляется на каждом уровне сети, но сильнее всего — в LSTM hidden и cell.
Чем меньше обзор, тем важнее внутренняя память.
Наличие монстров и ловушек делает паттерны более “запоминающимися” и повышает точность классификаторов.
Нелинейные классификаторы обычно работают лучше линейных, что говорит о сложных представлениях в сети.

Почему это важно и что дальше

Эта работа показывает, что RL-агент способен спонтанно создать модель мира внутри себя — первый кирпичик к сознанию по Дамасио. Метод классификаторов (probes) из Explainable AI открывает новые пути изучения “понимания” ИИ.

Но наличие внутренней модели мира не значит, что агент “чувствует” или “сознает” как человек. Однако агенты с такими моделями могут найти неожиданные, нежелательные стратегии. По мере развития таких систем понадобится четкая нормативная база, чтобы отделять безопасные внутренние модели от опасных.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Действительно ли у ИИ-агента есть внутренняя картина мира и представление о себе?