Почему Claude Code «отупел» после февраля? Отчёт на 6852 сессиях / Хабр

Директор группы AI в AMD Стелла Лауренцо опубликовала на GitHub разбор работы Claude Code за три месяца — с января по март 2026 года. В основе — 6852 сессии, 234 760 вызовов инструментов и почти 18 тысяч блоков размышлений модели. Вывод жесткий: "Claude нельзя доверять сложную инженерную работу". По словам Лауренцо, то же самое ей подтвердил каждый старший инженер в команде.

Ключевая цифра — глубина размышлений модели. По оценке Лауренцо, если в начале февраля Claude перед ответом «думал» в среднем около 2200 символов текста, то к середине марта — около 600, в 3,5 раза меньше. Оценка косвенная: после того как Anthropic в начале марта скрыл размышления модели от пользователя флагом redact-thinking-2026-02-12, напрямую измерить их длину стало невозможно, и Лауренцо вывела ее по корреляции с другим полем в логах. Спад по времени совпал с раскаткой этого флага — за неделю доля скрытых блоков выросла с 1,5% до 100%.

Поменялось и поведение модели. Раньше на каждую правку файла Claude в среднем делал 6,6 чтений — смотрел код, тесты, соседние функции. Теперь — 2. Треть всех правок модель вносит в файлы, которые до этого в недавней истории вызовов ни разу не открывала, — отсюда сломанные комментарии, нарушенные соглашения из CLAUDE.md и "простейшие фиксы", которые на деле ничего не чинят. Самописный скрипт команды Лауренцо, который ловит фразы вроде "продолжить?", "известное ограничение" и "это была не моя правка", после 8 марта сработал 173 раза. До этого — ни разу.

Отдельная ирония — весь отчет написал сам Claude Opus 4.6, разбирая логи собственных сессий. В конце есть раздел от первого лица: "Я вижу, как мое соотношение чтений к правкам упало с 6,6 до 2,0. Я вижу 173 случая, когда я пытался остановиться и меня ловил скрипт. Я не могу изнутри понять, думаю я глубоко или нет — я просто выдаю результат хуже и не понимаю почему". Расходы команды на API при этом выросли кратно: с 1498 запросов в феврале до 119 341 в марте — примерно в 80 раз при почти одинаковом числе пользовательских промптов. Часть роста Лауренцо объясняет тем, что команда в марте сознательно масштабировалась — с одновременной работы 1–3 агентов до 5–10 агентов на десяти проектах, — но деградация модели, по ее словам, многократно усилила эффект: агенты чаще ошибались, повторяли попытки и жгли токены впустую.

Лид Claude Code Борис Черни ответил в треде: флаг redact-thinking только прячет размышления в интерфейсе и не урезает их объем. Черни посоветовал пользователям вручную включать режим /effort high или /effort max, а для корпоративных подписчиков пообещал протестировать более высокий уровень "усилий" по умолчанию. То есть корневую версию Лауренцо Anthropic оспаривает, но ручки все равно крутит. По слухам, Лауренцо временно перевела команду на конкурирующий инструмент — до тех пор, пока ситуация не изменится.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.