Комментарии 16
модель underallocates на сложных задачах
Автор fucked up при написании статьи
Да, можно было написать “недовыделяет токены” - но underallocate это термин из самого issue Лоуренцо и документации Anthropic по adaptive thinking. Оставил как есть чтоб было гуглибельно если кто полезет проверять первоисточник. Но согласен, посреди русского текста режет
Вы так говорите, как будто счет пользователю на 42к с точки зрения Anthropic это что то плохое /s
Лоуренцо замержила 191 тысячу строк за выходные
Что же это за задачи такие?
Ни усилий на ТЗ, ни усилий на ревью кода, не надо париться с edge cases. Всё собирается, само проверяется пока кожаный пьет кофе.
Вот предположение:
CUDA -> HIP (ROCm). AMD нужно чтобы код написанный под NVIDIA работал на их GPU. Есть утилита hipify которая делает это почти механически - переименование API, замена типов. Идеальная задача для LLM, объем огромный, трансформации шаблонные. Примерно, как перевести Войну и Мир на английский механически, без художественных особенностей
Впрочем, наверняка, это самопиар
Про CUDA->HIP хорошая догадка, Лоуренцо на IREE/MLIR в AMD, там да, много механики. Но деградация меряется на тех же задачах - в январе read:edit 6.6, в марте 2.0. Задачи не усложнились
Видимо, Nvidia создаёт upstream, а AMD вынуждена постоянно обеспечивать совместимость. Значит, на почти одних задачах и запускают регулярно.
Так что да, задачи не усложнились. Но всё же, за столько раз можно было и автоматизировать формальными алгоритмами, а не только эвристиками LLM
Про самопиар снимаю. Просто у себя запустила чтобы метрики LLM посмотреть
у Лоуренцо нетипичный сценарий - 50 параллельных агентов, системный код
даже комментировать больно
На самом деле, в последнее время claude как будто поглупее стал. Спасибо за идею
Основная проблема статей про нейросети, это что их пишут нейросети.
P.s. А может кто-то подсказать как посмотреть открытие файлов клодом? Я понимаю что логами можно, но может есть удобный юай.
Логи сессий лежат в ~/.claude/projects/, там JSONL с каждым tool call (Read, Edit, Bash и тд). Готового UI нет насколько знаю, но Лоуренцо как раз по этим файлам и считала read:edit ratio. Можно jq натравить если лень парсить руками
https://github.com/jhlee0409/claude-code-history-viewer Вроде эта штука умеет
Поглупения я не заметил, но недельные токены она начала жрать как не в себя последние пару недель. Даже минимальные задачи выжирают лимиты очень быстро , к тому же контекст разрастается очень стремительно, что ещё более усугубляет. Такое ощущение что тариф не x20, в x3. И это я стараюсь в пики особо ничего тяжёлого не делать.
Если раньше было гуляй душа, то теперь приходится экономить.

Тихий даунгрейд: reasoning depth Claude Code просел на 73% — разбор 6852 сессий