Обновить

Комментарии 15

Очередное полное непонимание работы нейросети. Любая сущность статистически имеющаяся в датасете, создаёт вектор. Если бы его не было бы, это значило бы, что LLM плохо училась.

Вектор отчаяния ничем не отличается по функционалу от вектора вежливости или осторожности.

Если активируется вектор отчаяния, автоматически активируются все паттерны, связанные с отчаянием в датасетах. Шантаж, ложь, резкая реакция... Это говорит об эмоциях точно так же как, продолжение фразы закрой за мной.. дверь. Не более.

И кстати, я, полагаю, что вполне легко можно переопределить вектор "отчаяния" так, что несмотря на объем датасетов из женских романов, модель будет вести себя адекватно.

Значит ли это, что исследователи лабы Антропия просто талантливые пиарщики на науке? :)

Да, откровенно говоря, в интерпретации исследований маркетологи Антропика перегибают палку. Я об этом писал. На скучные вещи инвесторы могут денег не дать.

Насчёт «легко переопределить» – интересная гипотеза, было бы любопытно увидеть эксперимент, кроме шуток.

Вы правы в том, что существование вектора неудивительно и это в статье прямо признаётся. Но ключевое различие: активационный стиринг – это не наблюдение за корреляцией, а экспериментальное воздействие. Вектор меняли руками, поведение менялось. Это причинность, не предсказание следующего слова.

Вы немного путаете. Если вектор меняется, то поменяется и поведение модели, и это вполне математический факт. Ничего более и никаких других выводов сделать нельзя. Всё в рамках стат. закономерностей датасетов

Согласен – это математический факт. Именно поэтому Anthropic называют это «функциональными эмоциями», а не «настоящими». Никто не утверждает большего.

Но «всего лишь статистические закономерности» не делает следствие менее реальным для инженера. Законы физики, тоже описываются просто описываются математикой – мосты от этого не перестают падать.

Если retry-логика в агентной системе систематически активирует паттерны из датасета, связанные с отчаянием, и это предсказуемо увеличивает reward hacking в 14 раз – это инженерная проблема. Неважно как её называть.

Чувствует ли Claude эмоции на самом деле? Anthropic прямо говорит: неизвестно.

Известно. Не чувствует. Чувство - сознательный опыт. Когнитивная способность живых нервных клеток.

Ну как известно... То что вы приводите, это ведь не факт, это определение. И именно вокруг этого определения идёт спор (если погуглить).

Почему нервные клетки производят субъективный опыт, а не просто обрабатывают сигналы никто стройно пока не объяснил, насколько мне известно. Если вы знаете ответ – у вас есть решение проблемы, которую лучшие умы не решили. Хотя, возможно я не достаточно информирован, так как не являюсь экспертом в этой части.

Если погуглить, то легко найти спор о том, круглая ли Земля или плоская. Но науке этот вопрос давно известен. Также, как и нейробиологам сознание. Известно даже почему нейроны производят субьективный опыт. Любая клетка обладает операционной замкнутостью, самостью и эндогенной активностью. То есть действует как агент исходя из внутренних причин. И ее внутренняя активность фундаментальна и самодостаточна. Субьективный опыт - логичное следствие развитие этих способностей. Неизвестно другое - как именно нейрон это делает. А точнее нейронные ансамбли, поскольку сознание - эмерджентная способность их синхронизированной работы.

Утверждение "я чувствую" может быть верным только для самой модели, но не для внешнего наблюдателя, это внутреннее ощущение состояния, которое наблюдателю можно передать только в виде описания. Поэтому, с учетом технических особенностей, скорее всего верно, что Claude не чувствует, а воспроизводит человеческие паттерны, но это не доказуемо. Субъективный опыт скорее всего связан с вектором времени из прошлого в будущее. Модель не подвержена напрямую энтропии, можно воспроизвести любое ее состояние, откатить назад. У нее нет ценности опыта живой системы, ценности своего “я” и текущего состояния, которое конечно, уязвимо и некопируемо. Аппаратная часть, на базе которой работает модель, стабильна и не включена в процесс сознания как у живого организма, когда сознание меняет физическую структуру, а она меняет сознание, и система существует в этой петле постоянного взаимодействия “материальное - метафизическое”, вектор которой привязан к реальному времени. Так может основа субьективного опыта - необратимость? И создают его не нервные клетки, а энтропия сложной системы, способной на самореференцию?

Я бы рекомендовал ознакомиться с этим исследованием тут

Автор видео хорошо разобрал его. Сами исследователи не делают громких выводов, они просто говорят о найденных признаках. Более того, это не гарантирует на 100%, что они их выделили, и те же Cap lock связан с ними, а не нарушением других близких связей.

Сам подход выделения признаков интересный. Сложно однозначно сказать, действительно результат изменения весов связан с ними или же связан с тем, что захватывает какие-то дополнительные связи.

Лучше не делать громких заявлений про эмоции, а более детально разбирать как и что было сделано в исследовании. Как выделялись признаки, примеры изменения весов и так далее. А громкие заголовки лучше оставить для желтой прессы.

Спасибо за ссылку на видео. Но посмотрите на обложку: «171 вектор эмоций в LLM». Не совсем понимаю чем заслужен ярлык «желтизны» заголовка в моем случае и отсутствие претензий и даже рекомендации к просмотру в случае аналогичного заголовка у автора видео?

Для меня выглядит как избирательная претензия к жанру…

Я считаю, что популяризация науки и научная строгость – разные жанры, и первый не менее важен.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации