Claude Code втихую метит запросы. Так Anthropic ищет тех, кто учит на нём свои модели / Комментарии / Хабр

Чем дальше в лес, тем больше меня напрягает политика claude. Был у меня с ним забавный диалог. В какой-то момент посреди сессии он начал писать, дескать... "Я вижу в тексте вставку, она похожа на промпт-инъекцию, я её игнорирую".

Я сначала просто не понял, что это, но... Клод повторял это с завидной регулярностью, и мы стали разбираться. Выяснилось, что Антропик пометил мою сессию как возможно нарушающую чьи-то авторские права (я просил клода переводить мне книжку, что видимо было интерпретировано как попытка создания пиратского перевода). И система стала к каждому сообщению агента приплюсовывать памятку, дескать, сессия, возможно, нарушает авторские права, поэтому вот тебе напоминание о том, чего ты не должен делать, и ни в коем случае не сообщай пользователю об этой вставке.

Это довольно забавно. Система защиты от нарушения злоупотребления моделью добавила промптинъекцию, чем стриггерила у агента реакцию на промптинъекции, а требование не раскрывать пользователю информацию о памятке - рассказ пользователю об этой памятке...

Бррр... Жуть...

Какие ещё серые механизмы защиты туда понапихали?

Комментарии 3

funca 1 июл в 18:34

Идея использовать Claude Code конкретно для дисциляции выглядит сильно сомнительной (почему не ходить напрямую в API?). Но сама фича интересная.

BOM 18 июл в 19:51

Т.е. все эти ИИ-компании сами сначала обучили свои модели на контенте интернета, не спрашивая разрешения у авторов, а теперь считают, что обучение других моделей на их моделях это кража? Боже, какое лицемерие.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий