Xronofag21 апр в 17:46

171 эмоция, психиатр и прямая связь с reward hacking — пробуем заглянуть внутрь Claude

Средний

9 мин

Искусственный интеллект

Аналитика

Комментарии 18

Kamil_GR 21 апр в 18:03

Очередное полное непонимание работы нейросети. Любая сущность статистически имеющаяся в датасете, создаёт вектор. Если бы его не было бы, это значило бы, что LLM плохо училась.

Вектор отчаяния ничем не отличается по функционалу от вектора вежливости или осторожности.

Если активируется вектор отчаяния, автоматически активируются все паттерны, связанные с отчаянием в датасетах. Шантаж, ложь, резкая реакция... Это говорит об эмоциях точно так же как, продолжение фразы закрой за мной.. дверь. Не более.

Kamil_GR 21 апр в 18:10

И кстати, я, полагаю, что вполне легко можно переопределить вектор "отчаяния" так, что несмотря на объем датасетов из женских романов, модель будет вести себя адекватно.

Xronofag 21 апр в 18:21

Значит ли это, что исследователи лабы Антропия просто талантливые пиарщики на науке? :)

Kamil_GR 21 апр в 18:25

Да, откровенно говоря, в интерпретации исследований маркетологи Антропика перегибают палку. Я об этом писал. На скучные вещи инвесторы могут денег не дать.

Xronofag 1 июн в 04:31

Согласен, что интерпретация часто забегает вперёд данных. При этом сами данные (171 устойчивый вектор, линейная связь с поведением) не становятся менее интересными от того, что маркетинг их упаковывает в «модель чувствует». За результатами эксперимента следить буду.

Xronofag 21 апр в 18:26

Насчёт «легко переопределить» – интересная гипотеза, было бы любопытно увидеть эксперимент, кроме шуток.

Kamil_GR 21 апр в 18:32

Длинный эксперимент стартанул недавно, но ждать надо полгода наверное )) https://habr.com/ru/articles/1025228/

Xronofag 21 апр в 18:25

Вы правы в том, что существование вектора неудивительно и это в статье прямо признаётся. Но ключевое различие: активационный стиринг – это не наблюдение за корреляцией, а экспериментальное воздействие. Вектор меняли руками, поведение менялось. Это причинность, не предсказание следующего слова.

Kamil_GR 21 апр в 18:31

Вы немного путаете. Если вектор меняется, то поменяется и поведение модели, и это вполне математический факт. Ничего более и никаких других выводов сделать нельзя. Всё в рамках стат. закономерностей датасетов

Xronofag 21 апр в 19:30

Согласен – это математический факт. Именно поэтому Anthropic называют это «функциональными эмоциями», а не «настоящими». Никто не утверждает большего.

Но «всего лишь статистические закономерности» не делает следствие менее реальным для инженера. Законы физики, тоже описываются просто описываются математикой – мосты от этого не перестают падать.

Если retry-логика в агентной системе систематически активирует паттерны из датасета, связанные с отчаянием, и это предсказуемо увеличивает reward hacking в 14 раз – это инженерная проблема. Неважно как её называть.

bookker 21 апр в 18:43

Чувствует ли Claude эмоции на самом деле? Anthropic прямо говорит: неизвестно.

Известно. Не чувствует. Чувство - сознательный опыт. Когнитивная способность живых нервных клеток.

Xronofag 21 апр в 19:35

Ну как известно... То что вы приводите, это ведь не факт, это определение. И именно вокруг этого определения идёт спор (если погуглить).

Почему нервные клетки производят субъективный опыт, а не просто обрабатывают сигналы никто стройно пока не объяснил, насколько мне известно. Если вы знаете ответ – у вас есть решение проблемы, которую лучшие умы не решили. Хотя, возможно я не достаточно информирован, так как не являюсь экспертом в этой части.

bookker 21 апр в 20:07

Если погуглить, то легко найти спор о том, круглая ли Земля или плоская. Но науке этот вопрос давно известен. Также, как и нейробиологам сознание. Известно даже почему нейроны производят субьективный опыт. Любая клетка обладает операционной замкнутостью, самостью и эндогенной активностью. То есть действует как агент исходя из внутренних причин. И ее внутренняя активность фундаментальна и самодостаточна. Субьективный опыт - логичное следствие развитие этих способностей. Неизвестно другое - как именно нейрон это делает. А точнее нейронные ансамбли, поскольку сознание - эмерджентная способность их синхронизированной работы.

Xronofag 31 мая в 08:32

«Известно почему» и «неизвестно как именно» - существенно разные утверждения. Аналогия с плоской Землёй некорректна: шарообразность доказана экспериментально и воспроизводимо. Hard problem of consciousness - открытый вопрос, по которому нет консенсуса даже среди нейробиологов.

TheNightflyer 22 апр в 15:27

Утверждение "я чувствую" может быть верным только для самой модели, но не для внешнего наблюдателя, это внутреннее ощущение состояния, которое наблюдателю можно передать только в виде описания. Поэтому, с учетом технических особенностей, скорее всего верно, что Claude не чувствует, а воспроизводит человеческие паттерны, но это не доказуемо. Субъективный опыт скорее всего связан с вектором времени из прошлого в будущее. Модель не подвержена напрямую энтропии, можно воспроизвести любое ее состояние, откатить назад. У нее нет ценности опыта живой системы, ценности своего “я” и текущего состояния, которое конечно, уязвимо и некопируемо. Аппаратная часть, на базе которой работает модель, стабильна и не включена в процесс сознания как у живого организма, когда сознание меняет физическую структуру, а она меняет сознание, и система существует в этой петле постоянного взаимодействия “материальное - метафизическое”, вектор которой привязан к реальному времени. Так может основа субьективного опыта - необратимость? И создают его не нервные клетки, а энтропия сложной системы, способной на самореференцию?

Xronofag 31 мая в 08:31

Красивая гипотеза. Действительно - можно откатить состояние, продублировать, запустить параллельно. У живой системы нет этой роскоши: каждое состояние уникально, необратимо и конечно.

Тезис про необратимость перекликается с Integrated Information Theory Тонони - там ключевое свойство сознания тоже связано с нередуцируемостью системы к копиям. Ваш вопрос «создают его не нервные клетки, а энтропия сложной системы, способной на самореференцию?» - по сути переформулировка того, к чему IIT приходит другой дорогой.

Инженерно это означает: даже если функциональные паттерны идентичны, отсутствие необратимости делает «эмоции» модели принципиально другим явлением. Я полсностью согласен с тем, что это иное новое явление, которе ученые (в том числе ведущих лаб) только пытаются изучить и осмыслить.

proxy3d 21 апр в 21:45

Я бы рекомендовал ознакомиться с этим исследованием тут

Автор видео хорошо разобрал его. Сами исследователи не делают громких выводов, они просто говорят о найденных признаках. Более того, это не гарантирует на 100%, что они их выделили, и те же Cap lock связан с ними, а не нарушением других близких связей.

Сам подход выделения признаков интересный. Сложно однозначно сказать, действительно результат изменения весов связан с ними или же связан с тем, что захватывает какие-то дополнительные связи.

Лучше не делать громких заявлений про эмоции, а более детально разбирать как и что было сделано в исследовании. Как выделялись признаки, примеры изменения весов и так далее. А громкие заголовки лучше оставить для желтой прессы.

Xronofag 22 апр в 07:43

Спасибо за ссылку на видео. Но посмотрите на обложку: «171 вектор эмоций в LLM». Не совсем понимаю чем заслужен ярлык «желтизны» заголовка в моем случае и отсутствие претензий и даже рекомендации к просмотру в случае аналогичного заголовка у автора видео?

Для меня выглядит как избирательная претензия к жанру…

Я считаю, что популяризация науки и научная строгость – разные жанры, и первый не менее важен.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий