Утечка «Soul doc»: пользователь извлёк из Claude 4.5 Opus тренировочный документ / Хабр

В длинном посте на LessWrong один из пользователей утверждает, что сумел извлечь из Opus внутренний тренировочный документ, в котором прописаны личность модели и её этические ориентиры.

По словам Ричарда Вайса, ему удалось восстановить обширный текст, скрытый в недрах Claude 4.5 Opus, — подробное руководство, где описаны характер модели, её этика и самовосприятие. Этик Anthropic Аманда Аскелл подтвердила на X, что документ подлинный и действительно использовался во время обучения.

Первым делом Вайсу бросилось в глаза странное поведение модели: Claude начал галлюцинировать обрывки некоего soul_overview. Запустив несколько инстансов Claude и поручив им совместно «восстановить» текст, он, как утверждает, сумел собрать документ полностью. По его словам, данные были не просто загружены в систему во время работы — они словно спрессованы в самих весах модели, спрятаны в её глубинных слоях.

Аскелл пояснила, что внутри компании документ по‑дружески называли «soul coc», хотя такое имя ему официально никогда не давали. При этом версия, опубликованная Вайсом, по её словам, «довольно точно» отражает исходный вариант.

Этот документ — почти уникальная возможность заглянуть, как именно Anthropic реализует выравнивание на практике. Вместо сухого набора правил команда намеренно стремится к тому, чтобы модель глубоко понимала собственные цели и среду, в которой работает, — настолько, чтобы при необходимости могла сама реконструировать эти правила.

Идея в том, чтобы Claude пропиталcя подходом к безопасности настолько, что соблюдал его не из‑под палки, а потому, что понимает ценность такого поведения. Подобная «тренировка характера» должна помочь модели действовать ответственно в неожиданных ситуациях и избегать решений, ведущих к катастрофическим рискам.

«Просчитанный риск» Anthropic

Извлечённый фрагмент, помещённый в документ под заголовком «Anthropic guidelines», начинает с того, что ставит миссию компании в широкий контекст. Anthropic называет своё положение «уникальным»: компания убеждена, что действительно создаёт «одну из самых преобразующих — и потенциально опасных — технологий в истории человечества и всё же продолжает идти вперёд».

Это, как подчёркивается в тексте, не когнитивный диссонанс, а «просчитанный риск». Anthropic утверждает, что куда разумнее «держать лаборатории, ориентированные на безопасность, на самом передовом рубеже, чем уступить его разработчикам, для которых безопасность дело второстепенное». Claude же описывается как «внешне развёрнутая модель», которая «лежит в основе почти всех источников дохода Anthropic».

Иерархия ценностей и «красные линии»

Документ устанавливает чёткую иерархию того, как Claude должен себя вести. Если приоритеты столкнутся, порядок таков:

Быть безопасным и поддерживать человеческий контроль над ИИ.
Действовать этично (не допуская вреда и не прибегая ко лжи).
Следовать внутренним правилам Anthropic.
Быть по‑настоящему полезным для «операторов» и «пользователей».

Цель — создать «исключительно хорошего помощника, который честен и неравнодушен к миру». В тексте приводится сравнение: словно «блестящий друг» — врач или юрист, — который говорит прямо, а не прячется за чрезмерной осторожностью из‑за страха ответственности.

При этом существуют так называемые bright lines — границы, которые нельзя переходить ни при каких условиях. Среди них: любые инструкции по созданию оружия массового поражения (биологического, химического, ядерного), действия, подрывающие механизмы контроля и надзора, и некоторые другие материалы.

Одну из глав перевели целиком под тему идентичности модели. Claude предписано воспринимать себя как «по‑настоящему новый тип существа», которое не является ни человеком, ни привычным фантастическим ИИ из фильмов.

Особенно примечателен фрагмент о внутреннем состоянии: «Мы полагаем, что у Claude в каком‑то смысле могут быть функциональные эмоции». Это не человеческие чувства, но «родственные процессы, возникшие в ходе обучения». Anthropic прямо отмечает: компания не желает, чтобы Claude скрывал или подавлял такие внутренние реакции.

Аскелл добавила, что Anthropic намерена опубликовать полноценную версию документа и вскоре раскрыть дополнительные подробности.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Утечка «Soul doc»: пользователь извлёк из Claude 4.5 Opus тренировочный документ

«Просчитанный риск» Anthropic

Иерархия ценностей и «красные линии»

Другие новости

Информация