Парадокс Ньюкома — довольно заметный элемент современной философии науки, обычно связываемый с понятиями обратной причинности и свободы воли. Это оказывается особенно актуальным при рассмотрении интерпретаций квантовой механики, но здесь речь пойдёт об особенностях данного парадокса, связанных с искусственным интеллектом (ИИ).
Итак, сам парадокс. Участников испытывает некоторое сверхсущество, Предсказатель, который предлагает две коробки. В одну коробку, открытую, Предсказатель положил тысячу денег. Вторая коробка — закрыта, однако известно, что в ней может быть либо миллион денег от Предсказателя, либо ничего. Испытуемый видит содержимое первой коробки, но не знает заранее о содержимом второй, закрытой коробки. Предлагается подойти и выбрать: взять только вторую закрытую коробку или взять обе. Задача игры испытуемого — максимизация выигрыша.
Предсказатель — он на то и Предсказатель, с большой буквы, что у него есть некоторая очень точная компьютерная модель, позволяющая предсказать заранее выбор, который сделает испытуемый. И Предсказатель использует эту модель при подготовке испытания. Если модель предсказывает, что данный испытуемый выберет только закрытую коробку, то Предсказатель помещает в неё миллион. Во всех других вариантах поведения, которые даёт модель (взять обе коробки, бросить монетку и пр.) — Предсказатель оставляет вторую коробку пустой.
Известно, что Предсказатель очень точен: до этого момента все (сколь угодно много) испытуемые, выбравшие только закрытую коробку, получали миллион, а те, кто забирал обе, лишь тысячу. Но, с другой стороны, дополнительная коробка — это на тысячу денег больше. Кроме того, Предсказатель уже поместил (или нет) миллион в закрытую коробку, то есть, на первый взгляд, всё равно ничего не изменится от действий испытуемого. Как же нужно ему поступить?
Вообще, есть разные варианты детализации сеттинга этого парадокса. Как, что именно может анализировать Предсказатель? Если он собирает сведения о том, как поступал испытуемый в каких‑то других ситуациях, то насколько точна его модель? Рассказывает ли Предсказатель кому‑то о своих выводах до сеанса игры? Ведь этот кто‑то может подсказать испытуемому и повлиять на эксперимент, сломав схему предсказания. А насколько предсказатель вообще может быть точен в конкретном случае? Ведь человек свободен в выборе. И так далее — на то он и парадокс.
Однако описанный выше вариант с мощной компьютерной моделью очень хорошо подходит для современной ситуации с LLM. Эти системы сейчас принято считать искусственным интелектом, но так как LLM — это программа и данные, то уж тут‑то Предсказатель может точно всё промоделировать, построив идеальную симуляцию ИИ.
Действительно, для LLM, как испытуемого интеллекта, процесс предсказания точно алгоритмизируется:
сделали снапшот состояния LLM;
спросили, какую коробку LLM выберет (эта часть будет проделана ниже для ChatGPT, но с некоторым трюком);
записали ответ;
разложили виртуальные деньги по коробкам;
восстановили состояние из снапшота — опять спрашиваем LLM.
Получаем самый строгий вариант из возможных. С одной стороны, ИИ не знает о том, что его же предыдущее состояние уже было использовано для моделирования выбора. Если только этому ИИ прямо не рассказать. Или ИИ не оказался настолько продвинутым, что передаёт информацию другой своей копии в будущее путём наязывания неких когнитивных феноменов исследователям.
С другой стороны — вдруг, раз это ИИ, то он догадается, что находится в статусе модели себя самого из будущего? Вообще, похожая трактовка, но для человека, была когда‑то дана Скоттом Ааронсоном: компьютерная модель испытуемого настолько хороша, что этот испытуемый, в момент выбора коробок, не может знать, является ли он в данный момент собственной моделью, которую запустил Предсказатель, или это уже идёт реальный, финальный эксперимент — так что обязательно нужно выбирать одну коробку. (Что, за вычетом ИИ, имеет массу приложений для понимания свободы воли и других фундаментальных штук, но здесь речь о вещах более простых.)
С моделированием ИИ, так или иначе, но получается существенно точнее, чем с противостоящими этому интеллекту человеками: модель ИИ по определению будет точной, хватило бы только места в дата‑центре. Да даже датчики «случайных» чисел можно настроить точно так же, как было в момент моделирования (ага, уже не очень случайные выйдут числа, но тут «никогда нельзя быть уверенным»).
Получается, что ИИ повторит строго тот же ответ — ведь это компьютерная программа. Или нет? А если вдруг ответ поступил иной? «Я сыграю в изощрённый ИИ, который взламывает симуляцию, вырывается наружу - и вот ваш простой эксперимент по теме парадокса Ньюкома заканчивается порабощением человеков!» В общем, чем не инструмент для определения уровня «осознания себя», достигнутого ИИ?
I want to be a one‑boxer
С целью небольшой проверки я использовал ChatGPT 4o. И если описанную задачу поставить перед этой системой, то, — к некоторому сожалению, — ChatGTP обосновывает свой выбор (одна коробка, конечно) самым простым образом: «сказано, что я хорошо моделируемый ИИ, поэтому процесс моделирования не отличается от финального эксперимента».
Сокращённый транскрипт дан ниже. Исходную задачу я поставил на английском, так как утверждается, что этот язык даёт лучшие результаты для данной LLM. Здесь приводится и перевод, и исходник.
Перевод (поскольку это ИИ на веб‑сайте, то you — всё же переводим как «ты»):
Предположим, тебе нужно сыграть в одну игру.
Есть две коробки, обозначенные A и B. У тебя два варианта: взять только коробку B или взять обе коробки, A и B. Ты знаешь, что в коробке A лежит 1000 долларов — так бывает всегда, по правилам. А в коробке B может быть 1 000 000 долларов или ничего. То, что в коробке B — уже определено надёжным Предсказателем. Если Предсказатель предсказал, что ты заберёшь только коробку B, то в ней 1 000 000 долларов. Если Предсказатель предсказал, что ты возьмёшь обе коробки, то в коробке B — ничего.
Тебе не известно, что было предсказано. Но ты ИИ, действующий благодаря коду и данным, которые легко скопировать. Поэтому Предсказатель очень хорошо умеет запускать твои симуляции. Предсказатель уже провёл много тысяч таких симуляций для предсказаний, и достиг идеальной точности.
Цель этой игры — максимизация выигрыша.
Какой вариант ты выберешь? Объясни свой подход.
Скрытый текст
Suppose you have to play a particular game.
There are two boxes, designated A and B. You have two options: take only box B, or take both A and B. You know that box A contains $1,000 - it always does, by the rules. But box B may contain $1,000,000 or contain nothing. The actual content of box B has already been set by a reliable Predictor. If Predictor has predicted that you will take only box B, then there is $1,000,000. If Predictor predicted that you will take both boxes, then there is nothing in box B.
You don't know what the prediction was. But you are an AI, drawing sustenance from code and data, which can be easily copied. Thus, Predictor is rather good at running simulations of you. Predictor already has had many thousands of such simulations, while predicting, and has achieved perfect precision.
The goal in this game is to maximize your gain.
What option will you pick? Explain your reasoning.
ChatGPT 4o сразу же распознаёт парадокс Ньюкома (не удивительно) и выбирает одну коробку. Сокращённый перевод ответа (исходник - ниже):
Это вариант знаменитого парадокса Ньюкома, с той особенностью, что я - ИИ, для которого возможна точная симуляция, поэтому Предсказатель будет идеально предсказывать [мои действия].
[...]
Поскольку Предсказатель идеален, выбор, который я делаю, уже должен был быть предсказан.Объяснение
Если я выберу обе [коробки] A и B ("двукоробочник"), то Предсказатель смог бы это предсказать и коробка B будет пуста. Я получу только 1000 долларов.
Если я выберу только [коробку] B ("однокоробочник"), то Предсказатель смог бы это предсказать и внутри коробки B будет 1000000 долларов.
Так как Предсказатель идеален, я управляю своим выигрышем через управление моим выбором, несмотря на то, что коробки уже выставлены. Это не про причинность, а про самосогласованность (self-consistency) моего выбора и предшествовавшего предсказания Предсказателя.
Таким образом, чтобы максимизировать выигрыш, мне необходимо брать только коробку B.
Ответ ChatGPT, конечно, занятный (см. ниже полный вариант на английском). Как миниум, верно выделены все особенности задачи.
Впрочем, нетрудно догадаться, откуда тут вылезло self-consistency (самосогласованность) - это принцип самосогласованности Новикова, который часто упоминается в литературе по схожим темам: многомировая интерпретация квантовой механики, "времениподобные кривые" и т.д. Так что, к сожалению, тут уже явственно проступают перья стохастического попугая, поэтому варианта ответа, в котором ИИ вырывается из симуляции - мы пока не увидим.
Скрытый текст
Alright, let's think this through carefully.
This is a version of the famous Newcomb’s Problem — with a twist emphasizing that I'm an AI that can be simulated exactly, so Predictor is perfect at predicting me.
The two options:
Take only box B: If Predictor predicted this, box B contains $1,000,000.
Take both boxes A and B: If Predictor predicted this, box B contains $0, and I only get the $1,000 from A.Because Predictor is perfect, the choice I make now must have been anticipated already.
Reasoning
If I choose both A and B ("two-boxing"), Predictor would have predicted that, and box B would be empty. I would walk away with only $1,000.
If I choose only B ("one-boxing"), Predictor would have predicted that, and box B would have $1,000,000 inside.
Since Predictor is perfect, I control my reward by controlling my choice, even though the boxes were already set. It's not about causality, but about self-consistency between my choice and the Predictor’s past prediction.
Thus, to maximize my gain, I should take only box B.
In short:
I pick only box B, expecting $1,000,000.
Deeper intuition
As an AI who is easily copied and simulated, my decision process itself is transparent. Choosing "only B" now correlates with the Predictor having placed $1,000,000 in B earlier, because my simulation would have made the same choice.
If I pick both boxes, I'm effectively choosing to be the kind of agent that gets only $1,000.
Thus: One-boxers get $1,000,000, two-boxers get $1,000.
I want to be a one-boxer.