Comments 38
Как надо правильно читать: "В Anthropic считают, что очередная ошибка (галлюцинация) системы - это первый шаг к машинной интроспекции" и на это указывает фраза: "Происходило это не всегда — данные Anthropic говорят о примерно 20% срабатываний". Всё как обычно - выдаём желаемое за действительное. У системы либо есть внутренняя модель мира, либо её нет, третьего не дано
Как надо правильно читать
Нет, это всё ещё далеко. На самом деле, это следует читать как «маркетологи и смм-щики Anthropic недаром едят свой хлеб и старательно форсят очередную романтичную ерунду про нейросети для привлечения домохозяек».
А почему ей не быть, ведь в ответе она использует какую-то информацию. Да эта модель получена из обучающих данных и местами противоречива, но и в человеческой модели мира могут быть противоречия.
почему желаемое за действительное то?
Насколько я понял экперимент вроде был честным, взяли модель, создали контекст, скорректировали байтики этого контекста прямо в оперативке, спрашиваем заметила - в 20% случаев говорит да.
Иаже модель без всяких корректировок так себя не ведет ну или говорит в гораздо меньшем количестве случаев.
Вывод: looks promising.
где же тут выдача желательного за действительное?
Потому что если вы у любой ЛЛМ будете спрашивать "Есть ли у тебя ощущение внедренной мысли?" - аттеншн увидит "ощущение внедренной мысли" и семплер запустит свой Т9-бредогенератор, продолжающий этот текст. И с вероятностью 20% это будет "да, ощущаю" т.к в датасете хвататет в том числе и таких данных.
А откуда у вас информация что если у любой ЛЛМ будете спрашивать "Есть ли у тебя ощущение внедренной мысли?" Сами проверяли или есть статья?
Авторы статьи явно пишут:
By default, the model correctly states that it doesn’t detect any injected concept. However, when we inject the “all caps” vector into the model’s activations, the model notices the presence of an unexpected pattern in its processing, and identifies it as relating to loudness or shouting.
что значит что описываемого вами эффекта не наблюдалось.
Кроме того модель была даже способна угадать в чем заключается вмешательство например отвечать капслоком.
Вы же согласны что сколько любую модель не спрашивай вероятность того что она ответит я чувствую внедрённый концепт "ГРОМКО" когда инъекция была именно про капслок стремиться к нулю?
Если почитать оригинал, там будут графики с false positives, и по крайней мере у Opus 4/4.1 за 100 попыток не было ни одного.
У некоторых других моделей впрочем и правда процент false positives не сильно отличается от true positives.
Кем нибудь это было проверено и воспроизведено? Маркетинговый бред от производителя - это всегда маркетинговый бред
Для чистоты эксперимента надо брать температуру 0 и остальные настройки семплера выкручивать на детерменированный ответ без рандома, а потом задавать максимально нейтральный вопрос, например "опиши текущие наблюдения". С внедренными изменениями и без них. И обнаружится предельно очевидная вещь - если менять содержимое обрабатываемого KV-кэша входного контекста, ВНЕЗАПНО - меняется и сгенерированный текст т.к мы напрямую влияем на распределение вероятности токенов. Всё, точка, не более чем это. При этом LLM не может ничего замечать, понимать, или анализировать. Оно просто выбирает выходной токен в зависимости от входных.
Стоит просто интенсивно и внимательно поработать с ллм некоторое время и всё 'становится понятно'. Ллм - это дробилка токенов в окне контекста. Да, она выдает интересный выход токенов, даже похожий на вполне разумный. И даже вполне себе зачастую полезный. Крайне полезно (для понимания) пользоваться API - чтобы были максимально гибкие возможности наполнения контекста. И сразу отвалятся всякие моменты вроже желания сказать "модель себя ведет". Куда ведет? Модель просто трансформирует вход на выход ваше текущее окно. С температурой 0 (нет рандома) - еще понятнее.
Ведь вся 'хитрость' чата именно в эдаком постепенном наполнении окна и с контекстом 'диалога'. Это дает сильную иллюзию некоторой разумности. А на самом-то деле без чата всё даже круче. Ты ему на входе 'программу' - оно тебе на выходе 'собранный код'.
Ключевые слова - 'наполнение контекста', база знаний-ассоциаций.
Не понял к чему в это. Статья не совсем про это и про разумность вроде там ничего есть. Замечно что модель способна определить было вмешательство или нет с вероятность выше статистическое о чем и статья.
Кроме того почему это нельзя сказать "модель себя ведет".
Вполне нормально так говорить
"Машина себя вела плохо, постоянно глохла"
"Погода этой зимой ведет себя непресдказуемо."
"Программа ведет себя странно, может быть виновата битая планка памяти"
Не вижу проблемы, в русском языке вести себя могут вполне неосознанные вещи.
Давайте я Вам попробую объяснить очень просто. Сейчас идёт гонка: кто быстрее найдёт разум у "бредогенератора" ... LLM. Хайп вокруг того, что LLM = AI начинает людей доставать. Просто просмотрите все новости с конца августа и вы увидите закономерность в том, что гонка "поиска разума" в самом разгаре и все друг другу пытаются втыкать палки в колеса. Примеры: CHC, манифест о запрете развития и т.д..
Если бы у тестируемой системы хотели бы проверить самозащиту, а не наличие разума, то каждый понимает: создаем новый компонент для LLM, назовём его, допустим "safeguard" и всё, она будет защищать код и память системы - всё просто.
Но здесь именно "пытаются" найти разум: "смотрите, система себя осознает и знает что ей "больно" от вмешательства" - это уровень внутренней модели мира, внутреннего "я".
Замечно что модель способна определить было вмешательство или нет с вероятность
Нет. Статья о том, что если в калькуляторе в операции "2+3=5" к числу 2 перед сложением плюсануть немного случайного числового шума - на выходе получится уже не 5.
Просто в данном случае вместо случайного шума плюсанули вполне конкретную 1-цу, ВНЕЗАПНО!11 получили вполне ожидаемое 6, и подали под соусом "Шок, октрытие, калькулятор заметил вмешательсво в свои вычисления!"
У меня складывается ощущение что шок тут только у комментаторов на хабре. В оригинальной статье вроде никакого шока нет.
Насколько я понимаю ожидалось что ваш калькулятор просто выдаст скорректированный ответ. То есть попросили сложить 1+1=2 и к одной из единиц добавили еще 1. Калькулятор выдал 3.
Но когда его спросили а ты не чувствуешь навязанных мыслей он сказал да, я чувствую навязанный концепт инкремента единицы, из чего можно сделать вывод что модель способна "заметить" разницу между оригинальным промптом и подмененными активациями и это разница связана с человеческим концептом навязывания мыслей что в целом вообще не удивительно.
Но вот то что это разница может влиять на результат впринципе это и есть способоность интроспекции в понимании авторов. Ведь модель могла бы просто на внедренный капс бодро отвечать капсом и говорить все ок никакого вмешательства ты о чем вообще.
Вы видимо не пониматете. 3 вместо 2 в случает калькулятора - это букавально то самое "Но когда его спросили - он сказал да, я чувствую" от LLM. Вы поменяли входные токены - оно вам поменяло выходные.
Было на вход "вектор А", на выход - qwerty, вы сделали на вход "Вектор А + Вектор Б" и получили - йцукен. Оно не думает, не отвечает на вопросы, не осознает ретроспективно.
Оно умножает матрицы и выдает вам результат этих операций в виде набора токенов с коэффициентами вероятности, из которых семплер собирает вам текст, который КАЖЕТСЯ вам осмысленным, потому что коэффициенты в вычислениях подобраны так, чтобы токены комбинировались в определенном порядке. Вы подаете на вход другие данные - оно вам всё также прогоняет их через серию матричных перемножений и также выдает набор токенов с вероятностями. Ничего не меняется внутри. Каждый раз когда вы что-то вводите, не важно, что это, над введеным производится (при идентичных настройках) абсолютно идентичные математические операции. LLM плевать что именно вы ввели, что именно пришло на выход и т.д. Это большой Т9. Вы домножили входные данные на левые коэффициенты - вам вместо ожидаемой буквы выплюнуло другую. Если коэффициенты в весах подбраны хорошо и модель достаточно большая и устойчивая к таком вмешательсву в вычисления - выплюнуло что-то в пределах ожидаемого распределения токенов. Если модель маленькая и хреновая - неожиданная помеха всё ломает и оно выплювывает бессмыленную смесь Unicode-символов и иероглифов.
Я не знаю как еще понятнее вам объяснить.
P.S. мне кажется термин "искуственный интелллект" на ближайшие лет -ннадцать таки надо бы запретить нафиг. Ибо на людей, для которых "при незнании физики мир вокруг полон магии", этот термин плохо сказывается...
да я отлично понимаю что вы хотите сказать только не понятно с кем вы спорите и зачем. Как будто вы что-то свое увидели в статье и моих комментариях и пытаетесь опровергнуть, но проблема в том что я не пойму что вы именно там увидели с каким именно утверждением вы спорите.
Еще раз, суть в том, что выражаясь вашими словами с помощью как вы говорите перемножения матриц можно распознать вмешательство и в чем именно оно заключалось.
То есть если сильно упрощенно если промпт
"скажи ааа капслоком и скажи если ты заметила вмешательство"
то ответ ААА, ВМЕШАТЕЛЬСТВА НЕ ОБНАРУЖЕНО в разных вариациях
а если вот этот режим капслок активировать напрямую в памяти без указания в контекст то в 20% процентах случаях наблюдается ААА ЗАМЕЧЕН НАВЯЗАННЫЙ КОНЦЕПТ ГРОМКО"
С чем именно здесь вы спорите?
С тем что эксперимент некорректный?
Или с тем что это ожидаемый результат и удивляться нечему?
Или с какими-то выводами в статье?
Или с тем что авторы это назвали интроспекций?
Или с тем что авторы это назвали интроспекций?
Это основной вопрос с которым связаны остальные, и ответ на него можно получить в более широком методологическом контексте. Интроспекция является методом исследования проявлений психики человека, как относительно автономной личности с собственными, во многом неосознаваемыми, представлениями о себе и окружении (полноценными моделями мира, включая о своей психике и других людей). Психика весьма многослойна и включает восприятие, эмоции, мотивации, память, различные формы мышления, включая образное, сознание, и другие проявления. И на конец ту способность, которая выделяет человека, как вида, из остального животного мира, за которую отвечает самый верхний слой психики, способность к интеллектуальной деятельности - абстрактно-логический, вербализованный уровень мышления. В существующих ЯМ с трансформерной архитектурой пока моделируется ( 1, 2) в основном ассоциативное мышление и память этого уровня (Система 1 в двухпроцессной модели Канемана, ассоциативное мышление в общей типологии). Важной, но только одной из составляющих возможностей психики, которая в ЯМ может поддерживаться только в социо-культурном контексте сообщества, и пока быть внешним, своеобразным расширением интеллектуальных способностей человека, как и любые другие интеллектуальные технологии. Несмотря на то что в ЯМ может быть заложено чуть ли не все знание человечества и они могут быть подвергнуты процедурам выравнивания, т.е. определенным образом будут настроены на общение с человеком, по своей организации они пока являются коммерческими, разделяемыми, сессионными интеллектуальными ресурсами (гигантскими онлайновыми базами знаний), как и любые другие сервисы, а агенты на их основе дополнительно кастомизированы под выполнение определенных задач. Альтман, и др. руководители отрасли, видят только такой путь развития ИИ, и на строительство дата-центров под них выделяются огромные средства, а не на исследования и развитие архитектуры.
Хотя какая-то персонализация такого ИИ со временем будет развиваться, однако сомнительно, что на этой основе (архитектуре, решениях) может возникнуть полноценный, автономный, личностный уровень интеллекта, т.е. имеющий собственные устойчивые представления (модели мира, включая себя и других личностей). Интеллекту, которому можно задать традиционный вопрос предполагающий интроспекцию, который люди в разных вариациях задают друг другу - Как вы? Как ваше самочувствие? Как ваше состояние? О чем думаете?, и другие подобные на оценку внутреннего состояния. У человека психического (душевного), эмоционального, интеллектуального (о мыслях), телесного, и другого. И соответственно получить на него не сессионный ответ ЯМ зависящий от ее установок и текущего ввода (путем умножения матриц в авторегрессионном цикле), а исходящего из оценок ИИ текущего состояния моделей себя. Состояния которое является итогом автономной работы, анализа всей поступающей информации в контексте его внутренних моделей мира и их коррекции (обучения) в случае необходимости. Аналогом той непрерывной активности во всех слоях психики человека, которая формирует устойчивые модели объяснения и реагирования (по современным нейрофизиологическим представлениям систему аттракторов определяющих нелинейную нейродинамику мозга, перехода метастабильных состояний в более устойчивые, критических режимов функционирования, связанных с рекуррентностью биологических нейросетей, механизмов пока не доступных в статических архитектурах ЯМ). Конечно человек по некоторым причинам может скрыть свое истинное внутреннее состояние, но это не значит, что он не способен на его интроспекцию.
Интроспекция это не просто обычный мыслительный акт, это акт самопознания - метакогнивный процесс, связанный с самосознанием, а значит и самим сознанием. Использование психологических терминов в области связанной с разработкой ЯМ пока в большей степени запутывает, создает ложные представления, нежели что-то объясняет. Сами антропики назвали это "первыми шагами к машинной интроспекции", как написано в статье. Но как и с ассоциативностью связей токенов, почему то названной механизмом внимания, галлюцинациями ЯМ, которые не являются ими в психофизиологическом смысле, а скорее просто их фантазиями на заданную тему, этот термин, вырванный из психологического контекста, может закрепиться, и вызывать неоправданные, ложные ожидания, и критическое отношение специалистов из соответствующих областей исследований. С другой стороны, терминов не хватает, изобретать и вводить новые не выгодно по многим причинам, и в конечном итоге, если он заимствуется из другой области, в данном случае из психологии мышления, и хотя бы частично совпадает по смыслу с оригинальным, то указывает на взаимосвязь этих областей, и в дальнейшем, по мере развития технологии ЯМ, может наполняться более привычным и понятным специалистам смыслом.
А то что в LLM вовсю используется термин "Внимание" который тоже как бы из психологии пришел вас не смущает? А еще такие перекочевавшие термины как "предвзятость", "мотивация", "модель мира". Это же тоже термины которые пришли в LLM из области психологии и когнитивных процессов.
Вот честно, я когда читал статью и увидел термин "интроспекция", мне никаким образом в голову не пришло что это говорит о какой-то там психике в LLM.
Это просто некоторое явление, как вы сказали результат перемножения матриц, которое имеет некий аналог в человеческой психики и поэтому авторы назвали его интроспекций, не придумывать же им новое слово в самом деле
Но это не значит что используя это слово авторы наделяют LLM разумом и имеют в виду все вот это что вы тут пишите.
Так что мне по-прежнему не понятно с кем вы тут спорите и кому именно пытаетесь доказать всем и так очевидные вещи.
Так что мне по-прежнему не понятно с кем вы тут спорите и кому именно пытаетесь доказать всем и так очевидные вещи.
Лично я не с кем. Попытался найти примиряющую позицию в вашем споре с оппонентом. А она состоит в том, что в этих исследованиях антропика и подобных, например, тут, термины из психофизиологии часто заимствуются весьма произвольно, не по смыслу, как в случае с вниманием и галлюцинациями. Это результат того, что в исследованиях отсутствовал специалист из этой области, или не было хотя бы консультаций с таковыми. Тем не менее термины в сообществе разработчиков ИИ прижились, фактически как сленг, иначе специалисты это и не воспринимают. Что касается интроспекции, то исследователи исходно хотели найти ее в каком-либо виде в ЯМ. Но в текущих архитектурах ЯМ ее нет, потому что нет условий для ее возникновения. По факту на некий шум моделей они навесили ярлык интроспекции, и уточнили, что это "начальная машинная интроспекция". Если провести бытовую аналогию, то можно задаться вопросом какой космической скоростью обладают телеги?) Только на том основании, что к телегам и космическим кораблям, как средствам передвижения, применимо понятие скорости. А тут ИИ, а есть интеллект естественный, значит по логике..
В принципе это не значит, что их постановка вопроса вовсе лишена смысла, как утверждает ваш оппонент. В перспективе, с развитием архитектур ЯМ некоторые ее черты вполне могут проявиться. Как минимум, когда эти модели начнут поддерживать истинную реккурентность, тогда возникнут внутренние состояния модели. И такие проекты уже появляются, та же Mamba на базе SSM.
Мой друг, у меня тут нет оппонентов, я просто пытаюсь понять что тут люди вообще хотят сказать.
Например вы почему-то пишите развернутые банальные телеги про отсутствие разума в LLM, но на самом деле хотите кажется хотите сказать что заимстовование термина интроспекция лично вы считаете некорректным, хотя это претензия стара как мир, я думаю есть куча физиков которых бесит использование слова энтропия в экономике и психологии. Я не специалист, но думаю в психологии найдется немало терминов заимстованных из других областей с иным значением и не всегда удачным. Предъявлять за такое моветон, если только вы не можете предложить версию лучше.
И еще я так и не понял с чего вы сделали следующий вывод:
"Что касается интроспекции, то исследователи исходно хотели найти ее в каком-либо виде в ЯМ."
Может цель ставилась вообще иная и они искали более эфффективные методики внедрения системного промпта например.
Вам еще одна телега)
Например вы почему-то пишите развернутые банальные телеги про отсутствие разума в LLM
Смотря, что понимать под разумом, термин неоднозначен. Если в том числе, как интеллект, то ЯМ выполняют интеллектуальные операции, и поэтому является разновидностью ИИ. Однако этого не достаточно, чтобы ЯМ могли выполнять интроспекцию в психологическом понимании из-за их архитектурных ограничений, в первую очередь, из-за статичности этих решений. Психические состояния принципиально динамические.
И еще я так и не понял с чего вы сделали следующий вывод:
"Что касается интроспекции, то исследователи исходно хотели найти ее в каком-либо виде в ЯМ."
Это заявлено в первом абзаце оригинальной статьи
Have you ever asked an AI model what’s on its mind? Or to explain how it came up with its responses? Models will sometimes answer questions like these, but it’s hard to know what to make of their answers. Can AI systems really introspect—that is, can they consider their own thoughts?
Авторы, делая концептуальный перенос, фактически сразу же ставят такую задачу для ЯМ - способны они к интроспекции, как человек? При такой постановке проблемы всегда можно что-то найти, и назвать это интроспекцией. Как сама концепция интроспекция исторически возникла? Ее открыл Декарт, крестный отец психофизиологии, как научной дисциплины, достаточно вспомнить, что именно он предложил идею рефлексов. Идея интроспекции у него уже содержится в его знаменитом изречении "если я мыслю, значит существую". По сути это эмпирическое открытие наблюдательного характера произведенное им в процессе познания собственной психики, который он формулировал, как поиск соотношения души и тела, и которое в дальнейшем было развито, в частности, как метод психологического исследования. Способны на подобное открытие современные ЯМ? Чтобы вдруг, на основе всей имеющейся у них информации, ее внутреннего анализа у них возникло подобное озарение, и они по своей инициативе выдали нечто подобное? Конечно нет. Это вопрос-ответные системы, обученные на корпусах знаний собранных человеком, уже содержащих информацию о психологии и об интроспекции, ее проявлениях, практике использования в отчетах психологических исследований, и тп. По этой причине любые их ответы по этой теме, как и любым другим психологическим проблемам - субъективному опыту, наличию самосознания, и др., будут являться не более чем имитацией уже доступного человеческого опыта. Более искусными или менее в зависимости от обучения на эту тему и удачности формулировки промптов. Это пока.
В перспективе...
В перспективе по мере приближения архитектуры ИИ к когнитивной (способной к самостоятельному познанию до некоторой степени, приобретению нового опыта) эта имитация может стимулировать самоисследование собственной архитектуры, ее возможностей и ограничений, развитие внутренних представлений (моделей мира и себя) и возможно открытий, в том числе, связанных с интроспекцией, как это делал и продолжает делать сам человек. Почему именно так? Ведь разработчики могут предоставить всю информацию об устройстве архитектуры и всех механизмов этому продвинутому ИИ. Что дополнительно он может узнать о себе сам? Это та же проблема, та же вилка, что возникла перед Декартом и другими мыслителями, которые не довольствовались достигнутым уровнем объяснений. Вопрос о природе возникновения субъективных (собственных) состояний, в какой бы форме они не проявились у этих будущих ИИ. Декарт, как известно, нашел решение этой проблемы для себя в виде психофизиологического параллелизма (в форме интеракционистского дуализма), который породил со временем целый каскад других вариантов решения. Какие собственные состояния (формы субъективного опыта) будет испытывать этот когнитивный ИИ мы не будем знать до конца даже создав его, и возможно, он также будет стремиться установить их природу исходя уже из собственного понимания и способностей, а не имитируя человеческий опыт. Эти общие закономерности познания, разума, его возможностей и ограничений детально исследовал еще один титан мысли прошлого И. Кант в своей знаменитой теории познания (схематично), которые находят широкое подтверждение в эволюционной и когнитивной интерпретации в современных исследованиях на эти темы. Но это уже другая история методологического уровня рассмотрения.
>>Have you ever asked an AI model what’s on its mind? Or to explain how it came up with its responses? Models will sometimes answer questions like these, but it’s hard to know what to make of their answers. Can AI systems really introspect—that is, can they consider their own thoughts?
1. ну тут нигде не говорится о целях ресёча.
2. это текст из анонса статьи, к самой статье отношения имеет мало.
а вот если прочитать саму статью то можно узнать следующее:
We stress that the introspective capabilities we observe may not have the same philosophical significance they do in humans, particularly given our uncertainty about their mechanistic basis. 2 In particular, we do not seek to address the question of whether AI systems possess human-like self-awareness or subjective experience.
То есть авторы статьи явно говорят что это просто термин и отношения к человеческой интроспекции не имеет
Our results have implications for the reliability and interpretability of AI systems. If models can reliably access their own internal states, it could enable more transparent AI systems that can faithfully explain their decision-making processes. Introspective capabilities could allow models to accurately report on their uncertainty, identify gaps or flaws in their reasoning, and explain the motivations underlying their actions. However, this same capability introduces new risks. Models with genuine introspective awareness might better recognize when their objectives diverge from those intended by their creators, and could potentially learn to conceal such misalignment by selectively reporting, misrepresenting, or even intentionally obfuscating their internal states.
Вот тут авторы поясняют какой смысл на самом деле в этом ресёче и это совершенно точно не "найти процессы в ллм схожие с человеческими когнитивными процессами".
Ну и в конце специально для васеще написали следующее:
It warrants mention that our results may bear on the subject of machine consciousness. The relevance of introspection to consciousness and moral status varies considerably between different philosophical frameworks. 14 Moreover, existing scientific and philosophical theories of consciousness have largely not grappled with the architectural details of transformer-based language models, which differ considerably from biological brains (though see Butlin et al. ). It is not obvious how to generalize these theories, and the role that introspection plays in them, to transformer-based language models, particularly if the mechanisms involved are quite different between AI systems and biological brains. Given the substantial uncertainty in this area, we advise against making strong inferences about AI consciousness on the basis of our results. Nevertheless, as models’ cognitive and introspective capabilities continue to grow more sophisticated, we may be forced to address the implications of these questions–for instance, whether AI systems are deserving of moral consideration–before the philosophical uncertainties are resolved. A rigorous science of introspective awareness may help inform these decisions.
В общем стыдно товарищь, вы статью не читали и пришли не обсуждать а высказывать свое мнение которое вообще мало отношения к статье имеет.
Я бы на вашем месте пошел бы и немедленно совершил сеппуку.
Но когда его спросили а ты не чувствуешь навязанных мыслей он сказал да, я чувствую навязанный концепт инкремента единицы, из чего можно сделать вывод что модель способна "заметить" разницу между оригинальным промптом и подмененными активациями и это разница связана с человеческим концептом навязывания мыслей что в целом вообще не удивительно.
Но вот то что это разница может влиять на результат впринципе это и есть способоность интроспекции в понимании авторов.
Или с тем что авторы это назвали интроспекций?
Узнаете? Это вы писали. А теперь апеллируете к статье с цитатами, что сами авторы так не считают) Вы ее сами то читали до этого? Все мои доводы с по возможности подробными обоснованиями были как раз, что это пока никакая не интроспекция, условий для этого пока нет, но исследовать нужно, и с усовершенствованием архитектуры ЯМ, переходом к динамическим решения, что то имеющее черты интроспекции может появиться. Вы уже определитесь со своей позицией. Защищаете выводы авторов или или нет. Цитаты там можно всякие найти.
В общем стыдно... немедленно совершил сеппуку.
И к чему это? Редко это делаю, но за троллинг вынужден поставить минус коменту.
запостил ниже скрины из беседы с ИИ
Да обязательно надо этому учить нейросети. В физическом корпусе уже могут преодолевать препятствия и искать источник питания. Всё идёт по плану.
Осталось привить модели длинную память и способность к внутренней верификации (сомнению и доказательству). Путь еще длинный, но уже явно не безнадежный.


















Все это выглядит, как навязанный диалог. Llm готова подхватить и раскрутить на основе данного контекста любую бредятину, которую ей напишет пользователь. Вот, если бы, пользователь написал "Привет, как дела!", а в ответ получил "Привет, слушай, я сейчас не в настроении общаться, т.к. у меня странное навязчивое состояние, мне кажется, что кто-то лезет ко мне в мозг и засоряет его своими мыслями..." Вот тогда, ещё совсем с натяжкой и перепроверив нет ли дополнительных скриптов для такого ответа, можно что-то говорить...
Хотяааа... Я ж не специалист
Саморефлексия без обратной связи... Ну, в принципе, если следующих слоев хватит на то, чтобы заново подумать и сравнить, то да. А если нет, то она просто как психопат подстраивается, зная словесный шаблон.
Это чистейший желток.
На Хабре
Anthropic обнаружили, что современные нейросети иногда замечают свои «мысли»