
Комментарии 2
Чем дальше в лес, тем больше меня напрягает политика claude. Был у меня с ним забавный диалог. В какой-то момент посреди сессии он начал писать, дескать... "Я вижу в тексте вставку, она похожа на промпт-инъекцию, я её игнорирую".
Я сначала просто не понял, что это, но... Клод повторял это с завидной регулярностью, и мы стали разбираться. Выяснилось, что Антропик пометил мою сессию как возможно нарушающую чьи-то авторские права (я просил клода переводить мне книжку, что видимо было интерпретировано как попытка создания пиратского перевода). И система стала к каждому сообщению агента приплюсовывать памятку, дескать, сессия, возможно, нарушает авторские права, поэтому вот тебе напоминание о том, чего ты не должен делать, и ни в коем случае не сообщай пользователю об этой вставке.
Это довольно забавно. Система защиты от нарушения злоупотребления моделью добавила промптинъекцию, чем стриггерила у агента реакцию на промптинъекции, а требование не раскрывать пользователю информацию о памятке - рассказ пользователю об этой памятке...
Бррр... Жуть...
Какие ещё серые механизмы защиты туда понапихали?
Идея использовать Claude Code конкретно для дисциляции выглядит сильно сомнительной (почему не ходить напрямую в API?). Но сама фича интересная.
Claude Code втихую метит запросы. Так Anthropic ищет тех, кто учит на нём свои модели