Comments 6
Неужто неонку?
Команда интерпретируемости опубликовала исследование
Ссылку на исследование можно приложить? У авторов исследования такой же нейрослоп был? Ах, да:
Ссылка на оригинал статьи в токены на ветер
Понимаю, что хабрнеторт не новость, но это уже совсем перебор.
Внутри них формируются структуры, которые подозрительно похожи на то, что мы бы назвали "концепциями" или "знаниями".
Мне эти фичи показались подозрительно похожими на человеческие личные воспоминания. У многих в детстве были любимые игрушки, например желтый плюшевый зайчик. Когда мы выросли и слышим по отдельности слова "зайчик", "желтый", "плюшевый" на нас не накатывают воспоминания каждый раз. Но когда мы слышим словосочетание "желтый плюшевый зайчик" или зайдя с ребенком в магазин игрушек увидели похожего, то вполне возможно и вспомним, причем не просто как факт, а с яркой эмоциональной окраской. Так взрослые и проносят через всю жизнь память о любимой игрушке, картинке... Наверное Claude при обучении посчитала эти данные как особо важные. И вот Золотые ворота запомнились ей таким особенным образом.
Варианта два: либо это артефакты обучения SAE, либо концепции, которые существуют в модели, но не имеют аналогов в человеческом мышлении.
Аналоги в мышлении человека может и есть, но мы их не знаем\не понимаем т.к. о своем собственном мышлении имеем только поверхностное представление. А что там под капотом, в бессознательном...
Возможно нераспознанные 20-30% это сама суть мышления: методы логики и анализа. И не для всех из них у нас могут быть названия т.к. используются они неосознанно.
Наконец, это просто интересно с точки зрения науки. Мы начинаем понимать, что нейросети — не просто "статистические попугаи", как любят говорить критики. Внутри них формируются структуры, которые подозрительно похожи на то, что мы бы назвали "концепциями" или "знаниями".
Это не доказывает, что модели "понимают" в человеческом смысле. Но это показывает, что там внутри есть что-то более сложное, чем простое запоминание паттернов.
Концептуальные нейроны (популярно) в нейрофизиологии известны давно, это узлы семантический сетей (ассоциаций) связанных с сенсо-моторными областями (сетями) мозга. Наглядный способ обнаружить их воспользоваться непосредственной электрической стимуляцией, см. обзор с отчетами испытуемых в таких исследованиях. Если найти и простимулировать такой нейрон, например, "бабушки", то испытуемый возможно "увидить" или "услышит" свою бабушку) Однако такие исследования на мозге ограничены этическими нормами, и проводятся только в рамках медицинских процедур. Проведение подобных экспериментов над ЯМ пока не ограничены и возможно могут прояснить некоторые нервные механизмы.
ЯМ пока не обладают пониманием в том смысле, как это происходит у человека. Они как-то имитируют понимание, лучше или хуже в зависимости от реализации. Понимать это значит связать концепцию с восприятием, образами, сенсо-моторнырным опытом, произвести ее обоснование, заземление (фактически это процесс обратный сжатию информации, который происходит при формировании абстракций, концепций - распаковка, встраивание в контекст). Это логично ведет в когнитивных исследованиях к представлениям теории воплощенного познания, сторонники которой считают такое познание невычислимым процессом. ИНС могут только моделировать его некоторые аспекты приближенно, что приводит к имитации функций.
Исследование — прорыв, но до полного понимания моделей ещё далеко.
Не сказать, что прорыв. Подобное картирование давно проводилось для глубоких сверточных сетей. Также для ЯМ в рамках исследования ассоциативности, моделями которой, в основном, они и являются - 1, 2. Довели старую идею и опыты до реализации. Интересная тема, автору благодарности за публикацию, но ссылку на источник все же надо давать.
Что нашли внутри Claude, когда заглянули ему в голову