Обновить

Еще один шаг в сторону объяснимого ИИ. Anthropic научилась читать скрытые состояния LLM

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели11K
Рейтинг0
Комментарии6

Комментарии 6

Opus 4.6 давали на вход задачу 15 × 2 + 42 − 5, а намеренно сбитый инструмент возвращал 492 вместо 491

Не сходится с картинкой и ответом

К картинке вопросов нет

а, я понял, спасибо, исправлю

Коллеги, рассуждения в данной терминологии приводят к усложнению контекста.

1) "Стирлинг вектор" рассматривается только в контексте подкрепления обучения через наблюдаемое поле рассуждений модели.

2) наблюдаемый "смысл" всегда коллапсирует при наблюдении.

3) общий скрытый вектор через наблюдаемый смысл лучше называть "метаэмбеддинг", рассматривая Стирлинг вектор, как его частичный морф.

Оцениваю размер статьи на 10, оригинальность на 6, правдоподобность на 2, актуальность на 7.

steering vector, не стирлинг. Правдоподобность вы, конечно, уронили, учитывая, что это пересказ статьи от авторов метода с описанием результатов применения

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации