veriga14 мая в 07:05

Еще один шаг в сторону объяснимого ИИ. Anthropic научилась читать скрытые состояния LLM

Средний

10 мин

11K

Natural Language Processing * Анализ и проектирование систем * Искусственный интеллектИнформационная безопасность *

Обзор

Комментарии 8

Sanek000 14 мая в 15:19

Opus 4.6 давали на вход задачу 15 × 2 + 42 − 5, а намеренно сбитый инструмент возвращал 492 вместо 491

Не сходится с картинкой и ответом

veriga 14 мая в 16:57

все картинки из оригинальной статьи
https://transformer-circuits.pub/2026/nla/#misreported-tool-calls

Sanek000 14 мая в 16:58

К картинке вопросов нет

veriga 14 мая в 17:10

а, я понял, спасибо, исправлю

Kvarengi 17 мая в 04:20

Коллеги, рассуждения в данной терминологии приводят к усложнению контекста.

1) "Стирлинг вектор" рассматривается только в контексте подкрепления обучения через наблюдаемое поле рассуждений модели.

2) наблюдаемый "смысл" всегда коллапсирует при наблюдении.

3) общий скрытый вектор через наблюдаемый смысл лучше называть "метаэмбеддинг", рассматривая Стирлинг вектор, как его частичный морф.

Оцениваю размер статьи на 10, оригинальность на 6, правдоподобность на 2, актуальность на 7.

veriga 17 мая в 05:29

steering vector, не стирлинг. Правдоподобность вы, конечно, уронили, учитывая, что это пересказ статьи от авторов метода с описанием результатов применения

ioleynikov 11 июн в 04:47

Какие то слишком уж обходные пути ищутся для понимания смысла происходящего в нейросетях. С моей точки зрения для NLP надо попробовать использовать матричную грамматику. Искать матрицы глагольных трансформаций векторов эмбеддингов сущностей. Например сумма векторов состояния голодного кота и молока умножается на матрицу "есть" сытый_кот = есть*(голодный_кот+молоко). Молоко на выходе исчезает. Нелинейности нейросетей можно реализовать логическими функциями: и, или, нет.

veriga 11 июн в 06:52

стартап "Anthropic" запускался как исследовательская группа по созданию understandable AI, кажется и термин этот они придумали. Возможно, тоже сначала думали, что быстро на линейной алгебре всё порешают, там же математика уровня 2 курса бакалавров, просто никто не брался

Зарегистрируйтесь на Хабре, чтобы оставить комментарий