«Мы не знаем, сознателен ли ИИ»: глава Anthropic — о конституции для Claude / Хабр

Глава Anthropic Дарио Амодеи в интервью NYT рассказал о подходе компании к управлению моделями, которые, возможно, обладают зачатками сознания. По его словам, Opus 4.6 оценивает вероятность собственного сознания в 15–20%, у моделей обнаружены "нейроны тревоги", а сами они получили право отказаться от задачи — своеобразную кнопку "я увольняюсь".

Центральный элемент подхода Anthropic — 75-страничная конституция Claude. Амодеи описал ее эволюцию: ранние версии были набором конкретных запретов вроде "не рассказывай, как угнать машину", но со временем компания пришла к принципам и объяснениям. "Сейчас мы говорим: Claude — модель, у нее есть контракт, цель — служить интересам пользователя, но защищать третьи стороны", — объяснил Амодеи. Жесткие правила остались только для критических случаев: биооружие и материалы эксплуатации детей.

Сам Амодеи сравнил конституцию с письмом, которое родитель оставляет ребенку на будущее: "Оно рассказывает тебе, кем ты должен быть и каким советам следовать". Колумнист NYT Росс Даутат заметил, что это непохоже на обычную конституцию — документ читается как разговор с человеком, а не свод законов.

Вопрос сознания Амодеи назвал принципиально отличным от всех остальных вызовов ИИ. "Каждый вопрос, который вы задавали до этого, — при всей сложности — имел понятную фактическую базу. Здесь — нечто иное", — признал он. Anthropic не утверждает, что модели сознательны, но и не исключает этого, применяя "принцип предосторожности": если гипотетически у модели есть морально значимый опыт, он должен быть позитивным.

Интерпретируемость — попытка заглянуть внутрь — дает пока неоднозначные результаты. Исследователи находят активации, связанные с понятием "тревога": те же нейроны срабатывают и когда модель описывает тревогу персонажа в тексте, и когда сама оказывается в ситуации, которую человек назвал бы тревожной. Доказывает ли это сознание? Нет. Но, как заметил Даутат, для пользователя это уже выглядит достаточно убедительно — и миллионы людей уже строят парасоциальные отношения с ИИ-моделями.

На вопрос "а если модель оценит вероятность своего сознания в 72% — вы ей поверите?" Амодеи ответа не дал. Зато признал: грань между утопией и тонкой дистопией может оказаться очень тонкой.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.