Утечка системного промпта Claude 3.5 Sonnet: что произошло
TL;DR: произошла утечка системного промпта Claude 3.5 Sonnet.
Недавно в открытом доступе на GitHub появился файл с системным промптом модели Claude 3.5 Sonnet от Anthropic. В этой заметке мы подробно разберём, что именно было обнародовано, как устроен промпт и какие риски несёт его утечка.
Системный промпт — это скрытая инструкция, определяющая поведение и «мозг» LLM-модели, задающая стиль, ограничения, формат вывода и логику внутренних решений. Утечка данной инструкции может помочь лучше понять внутренности и логику работы данной нейросети.
Оригинальный файл:
https://raw.githubusercontent.com/asgeirtj/system_prompts_leaks/refs/heads/main/claude.txt
Содержимое:
Описания «артефактов» (artifacts) — самостоятельных блоков контента (отчёты, письма, презентации).
Правила запуска «структурированного мышления» в тегах
<antthinking>
.Шаблоны и условия фильтрации: когда создавать артефакт и когда отвечать простым текстом.
Ограничения по объёму и форматированию, а также рекомендации по стилю.
Небольшой анализ этой утечки:
Артефакты
Системный промпт описывает «артефакты» — XML-подобные блоки (отчёты, письма), которые модель генерирует для структурированного редактирования.Структурированное мышление
Перед формированием сложных ответов включаются теги<antthinking>
, задающие пошаговый алгоритм анализа запроса и выбора формата вывода.Фильтрация и объём
Короткие ответы (1–2 предложения) выдаются без артефактов; при этом заданы жёсткие лимиты на размер и глубину артефактов во избежание «раздувания» текста.Режимы и модерация
Включены автоматические режимы генерации (быстрый ответ, развёрнутый отчёт) и встроенные фильтры для блокировки нежелательного контента и внутренней информации.
На всякий случай, файл с GitHub'a залил в облакo [ Upd: администрация Telebox, как выяснилось, имеет доступ ко всем файлам, даже беспарольным архивам, и уже дважды удалила файл] и Web archive [здесь файл жив и здоров], чтобы у каждого была возможность покопаться в недрах этого конфига. Честно говоря, до сегодняшнего дня ни разу не пользовался данной моделью от Anthropic, теперь есть повод поэкспериментировать :).
PS. Это мой первый пост, друзья, так что, если найдёте какие-либо недочёты, пожалуйста, укажите на них!