Как стать автором
Обновить

Утечка системного промпта Claude 3.5 Sonnet: что произошло

TL;DR: произошла утечка системного промпта Claude 3.5 Sonnet.

Недавно в открытом доступе на GitHub появился файл с системным промптом модели Claude 3.5 Sonnet от Anthropic. В этой заметке мы подробно разберём, что именно было обнародовано, как устроен промпт и какие риски несёт его утечка.

Системный промпт — это скрытая инструкция, определяющая поведение и «мозг» LLM-модели, задающая стиль, ограничения, формат вывода и логику внутренних решений. Утечка данной инструкции может помочь лучше понять внутренности и логику работы данной нейросети.

  • Оригинальный файл:

    https://raw.githubusercontent.com/asgeirtj/system_prompts_leaks/refs/heads/main/claude.txt
  • Содержимое:

    • Описания «артефактов» (artifacts) — самостоятельных блоков контента (отчёты, письма, презентации).

    • Правила запуска «структурированного мышления» в тегах <antthinking>.

    • Шаблоны и условия фильтрации: когда создавать артефакт и когда отвечать простым текстом.

    • Ограничения по объёму и форматированию, а также рекомендации по стилю.

Небольшой анализ этой утечки:

  1. Артефакты
    Системный промпт описывает «артефакты» — XML-подобные блоки (отчёты, письма), которые модель генерирует для структурированного редактирования.

  2. Структурированное мышление
    Перед формированием сложных ответов включаются теги <antthinking>, задающие пошаговый алгоритм анализа запроса и выбора формата вывода.

  3. Фильтрация и объём
    Короткие ответы (1–2 предложения) выдаются без артефактов; при этом заданы жёсткие лимиты на размер и глубину артефактов во избежание «раздувания» текста.

  4. Режимы и модерация
    Включены автоматические режимы генерации (быстрый ответ, развёрнутый отчёт) и встроенные фильтры для блокировки нежелательного контента и внутренней информации.

На всякий случай, файл с GitHub'a залил в облакo [ Upd: администрация Telebox, как выяснилось, имеет доступ ко всем файлам, даже беспарольным архивам, и уже дважды удалила файл] и Web archive [здесь файл жив и здоров], чтобы у каждого была возможность покопаться в недрах этого конфига. Честно говоря, до сегодняшнего дня ни разу не пользовался данной моделью от Anthropic, теперь есть повод поэкспериментировать :).

PS. Это мой первый пост, друзья, так что, если найдёте какие-либо недочёты, пожалуйста, укажите на них!

Теги:
+8
Комментарии0

Публикации

Работа

Ближайшие события