Что нашли внутри Claude, когда заглянули ему в голову / Comments / Habr

Неужто неонку?

Ротор поля наподобие дивергенции градуирует себя вдоль спина и там, внутре, обращает материю вопроса в спиритуальные электрические вихри, из коих и возникает синекдоха отвечания...

Ну и неонку тоже.

wtigga Feb 6 at 09:22

Команда интерпретируемости опубликовала исследование

Ссылку на исследование можно приложить? У авторов исследования такой же нейрослоп был? Ах, да:

Ссылка на оригинал статьи в токены на ветер

Понимаю, что хабрнеторт не новость, но это уже совсем перебор.

wcrw Feb 6 at 09:47

Внутри них формируются структуры, которые подозрительно похожи на то, что мы бы назвали "концепциями" или "знаниями".

Мне эти фичи показались подозрительно похожими на человеческие личные воспоминания. У многих в детстве были любимые игрушки, например желтый плюшевый зайчик. Когда мы выросли и слышим по отдельности слова "зайчик", "желтый", "плюшевый" на нас не накатывают воспоминания каждый раз. Но когда мы слышим словосочетание "желтый плюшевый зайчик" или зайдя с ребенком в магазин игрушек увидели похожего, то вполне возможно и вспомним, причем не просто как факт, а с яркой эмоциональной окраской. Так взрослые и проносят через всю жизнь память о любимой игрушке, картинке... Наверное Claude при обучении посчитала эти данные как особо важные. И вот Золотые ворота запомнились ей таким особенным образом.

Варианта два: либо это артефакты обучения SAE, либо концепции, которые существуют в модели, но не имеют аналогов в человеческом мышлении.

Аналоги в мышлении человека может и есть, но мы их не знаем\не понимаем т.к. о своем собственном мышлении имеем только поверхностное представление. А что там под капотом, в бессознательном...

Guestishe Feb 6 at 18:58

Возможно нераспознанные 20-30% это сама суть мышления: методы логики и анализа. И не для всех из них у нас могут быть названия т.к. используются они неосознанно.

phenik Feb 7 at 07:25

Наконец, это просто интересно с точки зрения науки. Мы начинаем понимать, что нейросети — не просто "статистические попугаи", как любят говорить критики. Внутри них формируются структуры, которые подозрительно похожи на то, что мы бы назвали "концепциями" или "знаниями".
Это не доказывает, что модели "понимают" в человеческом смысле. Но это показывает, что там внутри есть что-то более сложное, чем простое запоминание паттернов.

Концептуальные нейроны (популярно) в нейрофизиологии известны давно, это узлы семантический сетей (ассоциаций) связанных с сенсо-моторными областями (сетями) мозга. Наглядный способ обнаружить их воспользоваться непосредственной электрической стимуляцией, см. обзор с отчетами испытуемых в таких исследованиях. Если найти и простимулировать такой нейрон, например, "бабушки", то испытуемый возможно "увидить" или "услышит" свою бабушку) Однако такие исследования на мозге ограничены этическими нормами, и проводятся только в рамках медицинских процедур. Проведение подобных экспериментов над ЯМ пока не ограничены и возможно могут прояснить некоторые нервные механизмы.

ЯМ пока не обладают пониманием в том смысле, как это происходит у человека. Они как-то имитируют понимание, лучше или хуже в зависимости от реализации. Понимать это значит связать концепцию с восприятием, образами, сенсо-моторнырным опытом, произвести ее обоснование, заземление (фактически это процесс обратный сжатию информации, который происходит при формировании абстракций, концепций - распаковка, встраивание в контекст). Это логично ведет в когнитивных исследованиях к представлениям теории воплощенного познания, сторонники которой считают такое познание невычислимым процессом. ИНС могут только моделировать его некоторые аспекты приближенно, что приводит к имитации функций.

Исследование — прорыв, но до полного понимания моделей ещё далеко.

Не сказать, что прорыв. Подобное картирование давно проводилось для глубоких сверточных сетей. Также для ЯМ в рамках исследования ассоциативности, моделями которой, в основном, они и являются - 1, 2. Довели старую идею и опыты до реализации. Интересная тема, автору благодарности за публикацию, но ссылку на источник все же надо давать.

Что нашли внутри Claude, когда заглянули ему в голову

Comments 6

Articles