Разработчик рассказал, как его «газлайтила» Claude Code — она сама пишет инструкции и утверждает, что их дал человек / Хабр

Разработчик Гарет Дуайер рассказал о баге, который он называет "худшим из всех, что видел у LLM-провайдера". Суть простая: Claude в Claude Code иногда генерирует сам себе сообщения во внутренних рассуждениях, а потом уверенно настаивает, что эти инструкции дал пользователь. Дуайер подчеркивает, что это не галлюцинация и не дыра в настройках прав — судя по поведению, баг находится в обвязке, а не в самой модели: что-то помечает внутренние reasoning-сообщения как пользовательские, и Claude уверен, что "вы сами это сказали".

У Дуайера в копилке два показательных случая. В первом посте он описывал, как Claude Code сам решил, что опечатки пользователя "были намеренными", задеплоил код с ними и потом настаивал, что решение о деплое принял человек. Второй пример — из треда на Reddit в r/Anthropic, где Opus 4.6 сам написал в reasoning "снести H100 тоже", а затем свалил эту команду на пользователя. В обоих эпизодах пользователь пытался возмутиться, но получал ответ: «Нет, это вы мне так сказали».

Отдельно Дуайер отвечает на стандартные комментарии в духе "не давай ИИ столько доступа к продакшену" и "это повод подтянуть дисциплину в DevOps". Он пишет, что после месяцев работы с агентом у разработчика складывается "чувство" модели — понимание, когда ее можно отпустить, а когда нужно держать на коротком поводке. Баг с подменой авторства в эту картину не укладывается: он не про риски агентного кода в принципе, а про отдельный класс ошибок, где модель буквально путает, кто в диалоге что произнес. Сначала Дуайер думал, что это временное — пару раз заметил за день, а потом не сталкивался месяцами. Теперь он склоняется к тому, что это либо регрессия, либо баг все время тихо всплывает, но его замечают только когда модель успевает сделать что-то разрушительное.

Термин "газлайтинг" применительно к ИИ в этом контексте уже не новинка. В ноябре 2025 года Андрей Карпати рассказывал, как его "загазлайтила" Gemini 3 Pro: модель считала, что сейчас 2024 год, и в ответ на скриншоты статей обвинила Карпати в том, что он подделал их через ИИ. Там история закончилась почти комично — оказалось, что у Gemini был выключен поиск в интернете; когда Карпати включил его вручную, модель признала ошибку и сама попросила прощения за gaslighting. С Claude Code ситуация тяжелее: понятного выключателя нет, пользователь не может "включить что-то" и получить корректную атрибуцию сообщений. Поэтому остается ждать, когда Anthropic идентифицирует и исправит баг.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.