Обновить

Тихий даунгрейд: reasoning depth Claude Code просел на 73% — разбор 6852 сессий

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели11K
Всего голосов 10: ↑7 и ↓3+4
Комментарии16

Комментарии 16

модель underallocates на сложных задачах

Автор fucked up при написании статьи

Да, можно было написать “недовыделяет токены” - но underallocate это термин из самого issue Лоуренцо и документации Anthropic по adaptive thinking. Оставил как есть чтоб было гуглибельно если кто полезет проверять первоисточник. Но согласен, посреди русского текста режет

Есть стандартный вариант - "недовыделяет токены (underallocate)" при этом текст престаёт выглядеть автопреводом из 90х...

Вы так говорите, как будто счет пользователю на 42к с точки зрения Anthropic это что то плохое /s

Ну в статье как раз про это - что все три изменения совпадают в сторону снижения расходов Anthropic, не пользователя. Лоуренцо правда на Bedrock сидела, так что $42k ушли в AWS, не напрямую в Anthropic. Но паттерн забавный да

Лоуренцо замержила 191 тысячу строк за выходные

Что же это за задачи такие?

Ни усилий на ТЗ, ни усилий на ревью кода, не надо париться с edge cases. Всё собирается, само проверяется пока кожаный пьет кофе.

Вот предположение:

CUDA -> HIP (ROCm). AMD нужно чтобы код написанный под NVIDIA работал на их GPU. Есть утилита hipify которая делает это почти механически - переименование API, замена типов. Идеальная задача для LLM, объем огромный, трансформации шаблонные. Примерно, как перевести Войну и Мир на английский механически, без художественных особенностей

Впрочем, наверняка, это самопиар

Про CUDA->HIP хорошая догадка, Лоуренцо на IREE/MLIR в AMD, там да, много механики. Но деградация меряется на тех же задачах - в январе read:edit 6.6, в марте 2.0. Задачи не усложнились

Видимо, Nvidia создаёт upstream, а AMD вынуждена постоянно обеспечивать совместимость. Значит, на почти одних задачах и запускают регулярно.

Так что да, задачи не усложнились. Но всё же, за столько раз можно было и автоматизировать формальными алгоритмами, а не только эвристиками LLM

Про самопиар снимаю. Просто у себя запустила чтобы метрики LLM посмотреть

у Лоуренцо нетипичный сценарий - 50 параллельных агентов, системный код

даже комментировать больно

Ну да, 50 агентов на компиляторах это не средний проект на ларавеле. Но данные по read:edit и reasoning depth не зависят от количества агентов, это поведение одной сессии

На самом деле, в последнее время claude как будто поглупее стал. Спасибо за идею

Попробуй env var из статьи, у многих после этого ощутимо лучше стало

Основная проблема статей про нейросети, это что их пишут нейросети.

P.s. А может кто-то подсказать как посмотреть открытие файлов клодом? Я понимаю что логами можно, но может есть удобный юай.

Логи сессий лежат в ~/.claude/projects/, там JSONL с каждым tool call (Read, Edit, Bash и тд). Готового UI нет насколько знаю, но Лоуренцо как раз по этим файлам и считала read:edit ratio. Можно jq натравить если лень парсить руками

Поглупения я не заметил, но недельные токены она начала жрать как не в себя последние пару недель. Даже минимальные задачи выжирают лимиты очень быстро , к тому же контекст разрастается очень стремительно, что ещё более усугубляет. Такое ощущение что тариф не x20, в x3. И это я стараюсь в пики особо ничего тяжёлого не делать.

Если раньше было гуляй душа, то теперь приходится экономить.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации