diffnotes-tech13 апр в 17:02

Тихий даунгрейд: reasoning depth Claude Code просел на 73% — разбор 6852 сессий

Средний

7 мин

11K

Искусственный интеллектПрограммирование * Исследования и прогнозы в IT *

Аналитика

Комментарии 16

onyxmaster 13 апр в 17:20

модель underallocates на сложных задачах

Автор fucked up при написании статьи

diffnotes-tech 13 апр в 17:32

Да, можно было написать “недовыделяет токены” - но underallocate это термин из самого issue Лоуренцо и документации Anthropic по adaptive thinking. Оставил как есть чтоб было гуглибельно если кто полезет проверять первоисточник. Но согласен, посреди русского текста режет

Arhammon 14 апр в 04:21

Есть стандартный вариант - "недовыделяет токены (underallocate)" при этом текст престаёт выглядеть автопреводом из 90х...

unclejocker 13 апр в 18:29

Вы так говорите, как будто счет пользователю на 42к с точки зрения Anthropic это что то плохое /s

diffnotes-tech 13 апр в 18:41

Ну в статье как раз про это - что все три изменения совпадают в сторону снижения расходов Anthropic, не пользователя. Лоуренцо правда на Bedrock сидела, так что $42k ушли в AWS, не напрямую в Anthropic. Но паттерн забавный да

Dhwtj 13 апр в 19:07

Лоуренцо замержила 191 тысячу строк за выходные

Что же это за задачи такие?

Ни усилий на ТЗ, ни усилий на ревью кода, не надо париться с edge cases. Всё собирается, само проверяется пока кожаный пьет кофе.

Вот предположение:

CUDA -> HIP (ROCm). AMD нужно чтобы код написанный под NVIDIA работал на их GPU. Есть утилита hipify которая делает это почти механически - переименование API, замена типов. Идеальная задача для LLM, объем огромный, трансформации шаблонные. Примерно, как перевести Войну и Мир на английский механически, без художественных особенностей

Впрочем, наверняка, это самопиар

diffnotes-tech 14 апр в 06:29

Про CUDA->HIP хорошая догадка, Лоуренцо на IREE/MLIR в AMD, там да, много механики. Но деградация меряется на тех же задачах - в январе read:edit 6.6, в марте 2.0. Задачи не усложнились

Dhwtj 14 апр в 10:21

Видимо, Nvidia создаёт upstream, а AMD вынуждена постоянно обеспечивать совместимость. Значит, на почти одних задачах и запускают регулярно.

Так что да, задачи не усложнились. Но всё же, за столько раз можно было и автоматизировать формальными алгоритмами, а не только эвристиками LLM

Про самопиар снимаю. Просто у себя запустила чтобы метрики LLM посмотреть

Oeaoo 13 апр в 19:14

у Лоуренцо нетипичный сценарий - 50 параллельных агентов, системный код

даже комментировать больно

diffnotes-tech 14 апр в 06:30

Ну да, 50 агентов на компиляторах это не средний проект на ларавеле. Но данные по read:edit и reasoning depth не зависят от количества агентов, это поведение одной сессии

gdt 13 апр в 19:39

На самом деле, в последнее время claude как будто поглупее стал. Спасибо за идею

diffnotes-tech 14 апр в 06:31

Попробуй env var из статьи, у многих после этого ощутимо лучше стало

AngusMetall 14 апр в 05:53

Основная проблема статей про нейросети, это что их пишут нейросети.

P.s. А может кто-то подсказать как посмотреть открытие файлов клодом? Я понимаю что логами можно, но может есть удобный юай.

diffnotes-tech 14 апр в 06:31

Логи сессий лежат в ~/.claude/projects/, там JSONL с каждым tool call (Read, Edit, Bash и тд). Готового UI нет насколько знаю, но Лоуренцо как раз по этим файлам и считала read:edit ratio. Можно jq натравить если лень парсить руками

Melirius 15 апр в 03:47

https://github.com/jhlee0409/claude-code-history-viewer Вроде эта штука умеет

Ajex 15 апр в 06:35

Поглупения я не заметил, но недельные токены она начала жрать как не в себя последние пару недель. Даже минимальные задачи выжирают лимиты очень быстро , к тому же контекст разрастается очень стремительно, что ещё более усугубляет. Такое ощущение что тариф не x20, в x3. И это я стараюсь в пики особо ничего тяжёлого не делать.

Если раньше было гуляй душа, то теперь приходится экономить.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий