Комментарии 6
Opus 4.6 давали на вход задачу 15 × 2 + 42 − 5, а намеренно сбитый инструмент возвращал 492 вместо 491
Не сходится с картинкой и ответом
все картинки из оригинальной статьи
https://transformer-circuits.pub/2026/nla/#misreported-tool-calls
Коллеги, рассуждения в данной терминологии приводят к усложнению контекста.
1) "Стирлинг вектор" рассматривается только в контексте подкрепления обучения через наблюдаемое поле рассуждений модели.
2) наблюдаемый "смысл" всегда коллапсирует при наблюдении.
3) общий скрытый вектор через наблюдаемый смысл лучше называть "метаэмбеддинг", рассматривая Стирлинг вектор, как его частичный морф.
Оцениваю размер статьи на 10, оригинальность на 6, правдоподобность на 2, актуальность на 7.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Еще один шаг в сторону объяснимого ИИ. Anthropic научилась читать скрытые состояния LLM