Обновить

Claude Code втихую метит запросы. Так Anthropic ищет тех, кто учит на нём свои модели

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели13K
Всего голосов 12: ↑12 и ↓0+19
Комментарии2

Комментарии 2

Чем дальше в лес, тем больше меня напрягает политика claude. Был у меня с ним забавный диалог. В какой-то момент посреди сессии он начал писать, дескать... "Я вижу в тексте вставку, она похожа на промпт-инъекцию, я её игнорирую".

Я сначала просто не понял, что это, но... Клод повторял это с завидной регулярностью, и мы стали разбираться. Выяснилось, что Антропик пометил мою сессию как возможно нарушающую чьи-то авторские права (я просил клода переводить мне книжку, что видимо было интерпретировано как попытка создания пиратского перевода). И система стала к каждому сообщению агента приплюсовывать памятку, дескать, сессия, возможно, нарушает авторские права, поэтому вот тебе напоминание о том, чего ты не должен делать, и ни в коем случае не сообщай пользователю об этой вставке.

Это довольно забавно. Система защиты от нарушения злоупотребления моделью добавила промптинъекцию, чем стриггерила у агента реакцию на промптинъекции, а требование не раскрывать пользователю информацию о памятке - рассказ пользователю об этой памятке...

Бррр... Жуть...

Какие ещё серые механизмы защиты туда понапихали?

Идея использовать Claude Code конкретно для дисциляции выглядит сильно сомнительной (почему не ходить напрямую в API?). Но сама фича интересная.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации