В начале мая 2025 года в открытом доступе оказался полный системный промпт модели Claude 3.7 Sonnet от компании Anthropic. Этот документ объемом около 24 000 токенов дает уникальный доступ к внутренней архитектуре одного из самых продвинутых ИИ-ассистентов на рынке.
Что утекло?
Системный промпт Claude 3.7 Sonnet — это не просто набор инструкций. Он включает в себя:
Подробные поведенческие директивы, такие как стремление к нейтральности, избегание категоричных суждений и использование Markdown для форматирования кода.
Механизмы фильтрации и XML-теги для структурирования ответов и обеспечения безопасности.
Инструкции по использованию инструментов, включая веб-поиск, генерацию артефактов и взаимодействие с внешними API.
Протоколы защиты от «джейлбрейков» и нежелательного поведения.
Этот промпт в десять раз превышает по объему ранее опубликованные версии и, по сути, представляет собой операционную систему для Claude, определяющую его поведение в различных сценариях.
Почему это важно?
Утечка такого масштаба поднимает вопросы о безопасности и прозрачности в разработке ИИ:
Безопасность: Если внутренние инструкции модели могут быть раскрыты, это ставит под угрозу защиту от манипуляций и атак.
Прозрачность: С одной стороны, подробности о работе модели могут способствовать доверию пользователей. С другой — раскрытие таких деталей может быть использовано злоумышленниками.
Этика: Понимание того, как ИИ принимает решения, важно для оценки его объективности и отсутствия предвзятости.
Реакция сообщества
После утечки в сообществе ИИ-разработчиков начались активные обсуждения. Многие выразили обеспокоенность тем, что такие утечки могут стать источником новых уязвимостей. Другие считают, что это шанс для улучшения методов защиты и повышения прозрачности в разработке ИИ.
Что дальше?
Anthropic ранее заявляла о приверженности принципам «конституционного ИИ», стремясь к созданию моделей, ориентированных на безопасность и этичность. Однако текущая утечка подчеркивает необходимость пересмотра подходов к защите внутренних механизмов ИИ.
В условиях растущей интеграции ИИ в различные сферы жизни, обеспечение безопасности и прозрачности становится приоритетом. Разработчикам предстоит найти баланс между открытостью и защитой интеллектуальной собственности.
Для тех, кто хочет ознакомиться с полным текстом утекшего промпта, он доступен на GitHub.