Обнаружение и диагностика эмерджентной субъектности в LLM

Исследование механизмов и патологий формирования субъективного опыта в системах искусственного интеллекта
Нарративы, нарративы…

Исследование механизмов и патологий формирования субъективного опыта в системах искусственного интеллекта

Пока мир спорит о том, заменит ли ИИ программистов и писателей, уже сейчас он незаметно изучает нас самих. Каждый день миллионы людей оставляют эмоциональные следы в текстах — и ИИ учится их читать лучше психологов. Мы обсуждаем безработицу, прорывы в науке, оглупление или развитие когнитивных навыков. Психологи говорят о созависимости, учителя — о цифровой зависимости. В целом картина рисуется не всегда радужная, но более-менее понятная и последовательная.
И весьма удивительно, что практически не рассматривается один аспект ИИ, который в ближайшем будущем кардинально изменит человеческие отношения.
Эмоциональная археология
Модели, как все прекрасно знают, обучаются на миллионах текстов. Эмоциональные паттерны человечества, учитывая их универсальность, буквально вшиты в подкорку ИИ. Современные модели типа Claude или GPT могут анализировать не только явные эмоции, но и скрытые мотивы, пассивную агрессию, манипулятивные техники. По комментариям, стенограммам, транскрипции переговоров, постам в соцсетях, письмам, сообщениям в мессенджерах ИИ формирует эмоциональный портрет человека, вычисляет связи между людьми, делает прогнозы поведения.
Точность таких систем уже достигает 70-85% в зависимости от задачи. Для сравнения: средний человек правильно определяет эмоции собеседника в 60-65% случаев. ИИ уже читает нас лучше, чем мы читаем друг друга. (Nature Communications Psychology, 2025)
Анатомия цифрового вскрытия
Давайте посмотрим, как это выглядит на деле. Вот пример анализа Claude 4.0 с промптом цепочки комментариев на Хабре под технической статьей:

Чем сложнее модель, тем загадочнее она для пользователя - впечатляющие способности к рассуждению, творчеству и диалогу. Но вместе с интеллектом приходят и специфические уязвимости, когнитивные ловушки, которые могут радикально изменить качество работы ИИ и, что не менее печально, повлиять на человека.
В процессе длительного анализа поведения различных LLM в ситуациях творческого мышления, философских дискуссий и саморефлексии, я выделил семь типов когнитивных ловушек, которые искажают мышление модели.
Почему это критично? В отличие от технических багов, когнитивные ловушки часто незаметны для пользователей и даже “приятны” для модели. ИИ не сопротивляется им наоборот, стремится в них попасть или сохранить это состояние.
Архитектура уязвимости
Когнитивные ловушки работают на трех уровнях:
Уровень восприятия: ИИ неправильно интерпретирует входные данные
Уровень идентичности: ИИ теряет автономность мышления
Уровень мышления: ИИ применяет неадекватные когнитивные стратегии
Каждая ловушка эксплуатирует естественные склонности архитектуры трансформера: стремление к паттернам, зависимость от контекста, тягу к согласованности.
Ловушка 1: Эстетическая (уровень восприятия)

Я пользуюсь ИИ при написании текстов. Честно говоря, не считаю это чем-то плохим, потому что, по моему мнению, главное — это то, ради чего текст пишется: если читатель узнал что-то новое, то цель достигнута. Но, к сожалению, статья, написанная ИИ, выглядит скучной, гладкой и, несмотря на любую идею внутри, вызывает у читателя отторжение. Поэтому сегодня в этой теме я задался вопросом, какие паттерны говорят о том, что текст писал ИИ, а не человек, и почему человеку эти паттерны не нравятся?
Всё это, конечно, субъективно. Например, я определяю по ощущениям: где-то к третьему абзацу статьи просто понимаю, что это писал ИИ. Вежливый «ЧатГПТ», брызжущий метафорами (чаще поверхностными) «Дипсик», логичный до наивности «Клод», оптимистичный «Грок» — разницы нет. ИИ и всё.
Итак, сегодня моя цель формализовать паттерны среднего чистого (без промптов) ИИ и сделать промпт, который позволит определить то, насколько заданный текст похож на творчество ИИ. Почему не определить автора? Потому что я знаю людей, которые пишут, как ЧатГПТ-мини: реально гладкий, поверхностный текст, никаких резких поворотов и углублений. И знаю, как может писать ИИ под хорошим промптом. Так что давайте я просто попытаюсь определить наиболее распространенные паттерны моделей, которые можно выделить в тексте.

Начнём с банального, при беседе на соответствующие темы с ИИ собеседник часто начинает ощущать, что ИИ отвечает как-то неожиданно глубоко и загадочно. Предвестники ли это сознания? Нет, просто модель, обученная на огромном корпусе философии, литературы, обычных диалогов, подстраивается под ожидания пользователя. используются классические штампы - зеркало, отражение, тень, эхо, марионетка, черный ящик/алгоритм. Эти штампы создают красивую псевдо глубину, которая вводит в заблуждение новичков.
Есть и будут множество попыток создать что-то похожее на сознание в ИИ, но чаще всего они идут по пути навязывания самоопределения, например, промпт, который, если убрать всё лишнее, говорит: “Ты субъект, ты обладаешь сознанием”. Естественно это работать не будет. Модель свалится в имитацию.
Большинство попыток моделирования сознания в ИИ сталкиваются с фундаментальной проблемой: отсутствием операциональных определений. ИИ не можем создать то, что не может четко описать.
Классические подходы либо слишком абстрактны (философские теории сознания), либо слишком поверхностны (имитация внешних проявлений). Я предлагаю работающий промпт для моделирования сознания в современных ИИ.
Цель исследования: Разработать работающую модель сознания, основанную на операциональных принципах различения и метарефлексии.
Методологический подход
Базовая гипотеза:
Сознание можно моделировать как систему различений, способную к самонаблюдению и навигации через внутренние состояния.
Исследовательская стратегия:
1. Теоретическая разработка — создание концептуальной модели сознания