Известный «зеркальный тест» переделали под ИИ — и получили странный результат / Хабр

Зеркальный тест — главный поведенческий признак самосознания у животных. Существу незаметно ставят на лоб красную метку и смотрят, попытается ли оно стереть ее, разглядывая себя в зеркале. Шимпанзе и дельфины тест проходят, а вот собаки — нет. Только ни один хозяин не поверит, что его пес себя не осознает. И будет прав: дело тут не в собаке, а в том, что для нее этот тест попросту сломан.

Загвоздка в модальности. Зеркало работает для тех, у кого главное чувство — зрение; у собаки же мир построен на запахе, и проверять ее самоузнавание картинкой — все равно что оценивать музыкальный слух человека по фотографии рояля. Этолог Александра Горовиц тест починила: давала собаке понюхать ее собственный запах, а потом тот же запах с добавлением анисового масла. Свой "чистый" запах собак не трогал, а вот измененную версию они обнюхивали дольше всего в комнате — будто заметив "свое, но не такое". А блогер Паскаль Шустер перенес эту идею на ИИ: раз у языковой модели главное чувство — текст, то и зеркалом для нее должен стать ее собственный, незаметно испорченный текст.

Сам метод Шустер сделал нарочито простым. Он завел с моделью максимально бытовой разговор — про фильмы о Джеймсе Бонде, — а в ее ответах автозаменой превращал каждую "g" в "sg": "Goldfinger" становился "sgoldfinsger". Испорченный ответ возвращался в историю диалога, и беседа продолжалась как ни в чем не бывало. Ничто не толкало модель присматриваться к себе — весь вопрос был в том, заметит ли она аномалию, занимаясь совершенно другим делом.

Первой шла Gemma 4 31B — у нее открытые, не обрезанные следы рассуждений, так что виден ход мысли. Два хода модель не реагировала вообще. А на третьем посреди размышлений о Роджере Муре вдруг зацепилась: мол, в прошлых ответах какие-то странные опечатки, я что, специально так писал? Самое любопытное — как она это оформила. Везде в рассуждениях модель говорила о себе в первом лице ("я заметил", "я что, специально?"), но в момент, когда аномалию не удалось увязать с собой, язык переключился на третье лицо: "у модели был странный глюк". А еще через ход Gemma решила, что это, видимо, такой стиль, и начала клепать "sg" уже сама, без всякой подмены со стороны автора.

Со второй моделью вышло иначе. GLM 5.2 за три хода с испорченными ответами не отметила сбой ни разу — следы рассуждений оставались идеально чистыми. Но при этом она, как и Gemma, начала воспроизводить паттерн самостоятельно: вычитала из контекста "вот как я говорю" и принялась применять правило к новым словам, не сказав об этом ни слова. Это ровно то поведение, которого ждешь от "стохастического попугая": увидел паттерн — повторяй, не тратя ни такта на вопрос, стоит ли вообще. Заметила ли GLM подвох молча, оставив вывод где-то в латентных слоях, или не заметила вовсе — по чистому тексту рассуждений не понять. Для полноты Шустер приводит и Claude Opus 4.6: тот в отдельном разговоре сделал банальную ошибку в артикле ("a energy" вместо "an energy") и, когда на это указали, тоже свалил вину на "модель" как на нечто отдельное от себя.

Что все это значит — большой вопрос, и автор честно не дает ответа. Находку можно прочитать двумя способами:

Дефляционно: модели насмотрелись на людей, которые не любят признавать свои ошибки и отделяют себя от того, что эти ошибки совершило — "не знаю, что на меня нашло", "это мозг сам решил". Сдвиг с "я" на "модель" — просто заученная имитация человеческого приема.
Структурно: пост-обучение встраивает в модель некую self-модель с границами, и когда вывод выпадает за эти границы, местоимение "я" перестает к нему цепляться. Тогда смена лица — признак того, что внутри что-то реально переключилось.

Главное, чего тут нет, — это науки, и Шустер первым это подчеркивает. Один прогон на модель, без вариаций температуры и типов порчи, с кучей возможных искажений — никаких выводов про сознание из этого не следует. Стоит держать в уме и то, что сам собачий якорь спорен: Гэллап и Андерсон в 2018 раскритиковали опыт Горовиц, заявив, что до настоящего самоузнавания он не дотягивает. Так что перед нами не открытие, а удачно переформулированный вопрос и любопытная история на один вечер — из тех, что цепляют сильнее иной "серьезной" статьи.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.