Теории человеческого сознания проверили на ИИ-агентах

Исследователь из Токийского института науки Инь Цзюнь Пхуа применил подход, который он называет "синтетической нейрофеноменологией": построил ИИ-агентов, воплощающих три ведущие теории сознания, и провел на них эксперименты, невозможные на живом мозге. Речь не о создании сознательного ИИ — агенты служат "идеальными модельными организмами", где каждый нейрон и вес можно наблюдать и модифицировать. Проверялись теория глобального рабочего пространства (GWT), теории высшего порядка (HOT) и теория интегрированной информации (IIT).

Первый эксперимент проверял HOT-гипотезу о том, что сознательное состояние требует самомониторинга. Агенту с модулем "Я-модели" этот модуль отключили, не трогая остальную архитектуру. Точность выполнения задач осталась прежней — 88%. Но способность оценивать собственную уверенность упала до случайного уровня: график уверенности превратился в шум. Агент продолжал успешно действовать, но перестал "знать", что действует правильно. Это синтетический аналог слепозрения — феномена у людей с повреждением зрительной коры, которые верно "угадывают" расположение объектов, не осознавая, что видят их.

Второй эксперимент тестировал GWT-гипотезу о глобальном рабочем пространстве. Суть теории: в мозге работают десятки специализированных модулей (зрение, память, планирование), но сознательным становится только то, что попадает в общее "рабочее пространство" и транслируется всем остальным модулям. Для проверки агенту давали задачу на рабочую память: запомнить два сигнала, пройти через "комнату" и воспроизвести их в правильном порядке. Сигналы поступали исключительно через "шину" рабочего пространства — остальные части агента их не видели. При полной емкости шины (4 слота) агент справлялся в 99.5% случаев. При половинной — в 28%. При полном отключении — 0%. Ключевое наблюдение: качественный скачок происходил именно между "есть хоть какая-то шина" и "шины нет". Рабочее пространство оказалось не просто полезным, а критически необходимым для доступа к информации.

Третий эксперимент выявил неожиданную уязвимость GWT-архитектуры. Интуиция подсказывает: если информация транслируется всем модулям, система должна быть устойчивее — больше "глаз", больше шансов заметить ошибку. Реальность оказалась обратной. Когда исследователь вводил шум напрямую во внутренние представления агента, GWT-архитектура работала как усилитель: она транслировала всем модулям не только полезный сигнал, но и помехи. Шум в 4% от амплитуды сигнала ронял точность с 100% до 75%. Агенты с добавленным модулем самомониторинга выдерживали 50% шума без существенных потерь. Почему? Модуль самомониторинга работает как фильтр: он сжимает состояние системы в компактное представление, отсеивая шум до того, как тот попадет в "общий чат". Трансляция без фильтра — уязвимость, а не преимущество.

Тот же эксперимент принес негативный результат для IIT-метрик. Пхуа измерял индекс пертурбационной сложности (PCI) — в нейронауке его используют для диагностики сознания у пациентов в коме. Логика такая: если "ткнуть" систему возмущением, сознательный мозг отреагирует богато и разнообразно, а бессознательный — стереотипно и просто. Ожидание: агент с глобальным рабочим пространством, где все связано со всем, покажет высокую сложность отклика. Реальность: все вышло наоборот. Рабочее пространство работает как узкое горлышко — все сигналы проходят через одну шину с четырьмя слотами. Это делает отклики более однородными и предсказуемыми, снижая измеряемую сложность. Вывод: нейробиологические метрики сознания нельзя наивно переносить на ИИ — архитектура искусственных систем может давать обратный эффект.

Главный вывод работы: три теории сознания не конкурируют, а описывают разные функциональные слои. GWT обеспечивает трансляцию информации между модулями, HOT — контроль качества этой трансляции. По отдельности ни один механизм не дает устойчивого поведения. Для разработчиков ИИ это практический ориентир: система без метакогнитивной калибровки не способна достоверно сообщать о собственной неуверенности. А это критично для безопасности беспилотников, медицинских ИИ и любых автономных систем, где цена ошибки высока.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Теории человеческого сознания проверили на ИИ-агентах — результаты удивили

Другие новости