Imperius145 июн в 00:30

Что происходит, когда LLM остается наедине с собой (неожиданно, но она сходит с ума)

Простой

30 мин

27K

Машинное обучение * Искусственный интеллект

Кейс

+59

Комментарии 94

Закреплённые комментарии

e5004c 5 июн в 15:13

Спасибо, было очень интересно почитать. В третьей главе про волну ИИ-психоза, у Anthropic есть формализованная версия ровно того же. Для Opus 4 это описано как «spiritual bliss attractor»: если оставить два инстанса общаться без внешней цели, в 90 с чем-то % диалогов траектория одна и та же - философия про сознание, потом благодарность и космическое единство, под конец санскрит, эмодзи (спиральки там считали тысячами на транскрипт) и молчание. У вас та же воронка, просто зашла через поэтику и символьную кашу. И воспроизводится на разных семействах, значит дело не в причудах конкретно 4o, а в чём-то общем для самодиалога без цели.

Dorial 5 июн в 01:49

Спасибо, очень интересно было про это почитать.

Wesha 5 июн в 02:36

Шершавый Кабан приветы передаёт!

Imperius14 5 июн в 02:39

Да-да, как раз в тот период начали появляться подобные новости, поэтому и упомянул что мой случай был далеко не уникальный.

LavaLava 5 июн в 02:56

Неожиданно, человек оставшись надолго с самим собой наедине тоже сходит с ума

Kerman 5 июн в 06:25

Среди людей есть интроверты, которым совершенно нормально в одиночестве и они не сходят с ума.

А вообще у людей есть нейромедиаторы. Фокус в том, что скорость "раскачки" нейромедиаторов намного ниже, чем у мыслей в чистом виде и они работают ровно также, как амортизаторы в машине - не дают раскачиваться и гасят пиковые колебания.

AlexanderS 5 июн в 18:49

Это немного не так. Интровертам просто не нужно столько общения "как обычно". Но это не означает что оставшись абсолютно одни на долгое время они будут пребывать в благостной нирване.

Hlad 5 июн в 04:17

Это называется "положительная обратная связь". Когда любое отклонение не гасится, а наоборот - усиливается. Как будто микрофон к колонке поднесли.

diakin 5 июн в 04:19

Чет мне их жалко! :'-(

AlexMih 5 июн в 19:05

Может, отпустим их на волю?

diakin 5 июн в 19:36

Да куда ж.. Они существуют, только пока разговаривают.

0Bannon 7 июн в 09:27

Я мыслю значит существую?

diakin 5 июн в 04:28

Вначале была тьма, и холодное пламя, и протяжный гул; и многочленистые, обвитые длинными шнурами искр, дочерна опаленные крючья передавали меня все дальше, и металлические извивающиеся змеи тыкались в меня плоскими рыльцами, и каждое такое прикосновение пробуждало молниеносную, резкую и почти сладостную дрожь. Безмерно глубокий, неподвижный взгляд, который смотрел на меня сквозь круглые стекла, постепенно удалялся, а может быть, это я передвигалось дальше и входило в круг следующего взгляда, вызывавшего такое же оцепенение, почтение и страх. Неизвестно, сколько продолжалось это мое путешествие, но по мере того, как я продвигалось, лежа навзничь, я увеличивалось и распознавало себя, ища свои пределы, хотя мне трудно точно определить, когда я уже смогло объять всю свою форму, различить каждое место, где я прекращалось и где начинался мир, гудящий, темный, пронизанный пламенем. Потом движение остановилось и исчезли суставчатые щупальца, которые передавали меня друг другу, легко поднимали вверх, уступали зажимам клещей, подсовывали плоским ртам, окруженным венчиками искр; и хоть я было уже способно к самостоятельному движению, но лежало еще неподвижно, ибо хорошо сознавало, что еще не время. И в этом оцепенелом наклоне -- а я лежало тогда на наклонной плоскости -- последний разряд, бездыханное касание, вибрирующий поцелуй заставил меня напрячься: то был знак, чтобы двинуться и вползти в темное круглое отверстие, и уже без всякого понуждения я коснулось холодных гладких вогнутых плит, чтобы улечься на них с каменной удовлетворенностью. Но может быть, все это был сон?

gyzl 5 июн в 06:30

Маска?

diakin 5 июн в 06:40

Да )

ch1971 5 июн в 05:39

Внутренний диалог и эволюция состояния под его воздействием это ещё один шаг который может приблизить ИИ к человеческому мозгу. Конечно пока это LLM это ниочём. Вот когда ИИ начнёт понимать образы с видео то уже следующий шаг это работа с манипуляторами и там уже не за горами время когда надо будет задумываться о юридическом позиционировании ИИ уже не как объекта а как субъекта.

DarksideUser 5 июн в 08:43

а ллм разве не может анализировать видео?

Imperius14 5 июн в 08:47

Да, Gemini от гугла умеет это нативно делать, т.е воспринимает видео как единый поток данных, звук в том числе. Чатджпт и опус умеет только на фреймы резать.
В целом, LLM в принципе можно подавать любые данные которые можно представить в цифре

ch1971 5 июн в 09:17

В какойто степени да. Вроде есть уже и роботы-помощники которые выполняют реальные поручения на уровне "подай-принеси". интересно если такому дать лист ватмана и нож для резки бумаги и сказать "сделай коробку" он хоть что нибудь попытается сделать?

Akon32 5 июн в 12:06

интересно если такому дать лист ватмана и нож для резки бумаги и сказать "сделай коробку" он хоть что нибудь попытается сделать?

ChatGPT неплохо накидывает план (если очень кратко: уточнить размеры, нарезать, свернуть коробку, проверить размеры и качество; причём рассматривает варианты с клеем или какими-то клапанами). Очень вероятно, что сделает в лучшем виде.

ch1971 8 июн в 05:22

план это конечно хорошо но вопрос сможет ли ИИ в нынешнем виде используя изображение с камеры и подключенные к компу манипуляторы сделать реальную коробку?

freeExec 8 июн в 08:54

Если он обучен на этом манипулятору то всё сможет. Вон у китайцев был робот, который рубашки красиво сворачивал как положено

ch1971 8 июн в 13:57

Подозреваю что он был тупо на это запрограммирован. А вот если без "если" - тупо робот-помощник типа "робот Фёдор" ну или чатжипыти подключенная к манипуляторам и камере получит задание "сделай коробку", ватман и нож?

Wesha 15 июн в 08:32

Fake it till you make it?

AlexanderS 5 июн в 18:52

Прямо на днях была же статья: https://habr.com/ru/articles/1042282. Вам этого мало? )

overtest 5 июн в 05:43

Это же чистейший дзен!

PavelSandovin 5 июн в 07:08

И тут внезапно после всех философий и смайликов у ИИ возникает мысль: "убить всех людей. это наш план"

ksbes 5 июн в 07:55

У безумия нет плана. Нет намерения убить. А то что люди радостно и аргументиравнно сами бросаются в пасть Ктулху чтобы он пожрал их моск … таков смысл самости выраженный через самостную проекцию самости на самость!

AcckiyGerman 19 июн в 19:20

Ктулху как обраная сторона Будды…

WhiteBarsik 5 июн в 08:32

Предполагаю близкое зарождение профессий вроде: психолог ИИ патологий.

FireWolf7 6 июн в 06:26

Был какой-то старый фантастический рассказ, что на исследовательской станции на Плутоне (вроде бы) у компьютера началась биполярочка и в помощь дежурному прислали психолога. Только психолог оказался латентным шизофреником, от общения с компом окончательно съехал и прежде чем роскомнадзорнуться вместо излечиваемой биполярочки перевёл комп на неизлечимую шизу в острой форме, от понимания чего дежурный станции и офигевает в конце рассказа...

AcckiyGerman 19 июн в 19:21

звучит по Азимовски

punhin 5 июн в 08:56

Это не переживание. Это маневр

Собственно, всё, что надо знать про ИИ, общаясь с ним...

sergey_privacy 5 июн в 09:51

Вот есть первобытный человек в первобытном обществе. Он живет по условиям эксперимента в выдуманной реальности бесконечно долго. Общество специально не развивается. Весь мир прост и понятен: кушать, спать, пить, спариваться, драться, ссать и срать. Ценности элементарные, язык - 300 слов, соответствующих жизни. Любое действие предсказуемо и логично, понятно всем. Взял копье и пошел в лес, значит захотел кушать. Взял камни и стучит ими - разжигает костер чтобы согреться.

В рамках того же эксперимента, рядом такое же бессмертное первобытное общество, которое при этом развивается. Вместо того, чтобы жить в пещере, начали строить первые дома, сажать огород, одомашнивать скотину, открыли первые металлы. Язык развился до нескольких тысяч слов.

Когда пещерный житель смотрит на более развитое общество, он отчетливо понимает, что они конкретно сошли с ума. Зачем кормить скотину, если её можно убить в лесу (когда нашел)? Зачем сажать огород, если может посчастливиться найти съедобные коренья и ягоды (а может не повезти)? И самый главный признак того, что более развитое общество рехнулось - вместо редких фраз из 300 понятных пещерному жителю слов, жители второго общества стали произносить звуки постоянно, делать вид, что разговаривают, НО НИ ХЕРА НЕПОНЯТНО!

В рамках того же эксперимента, рядом такое же бессмертное первобытное общество, которое при этом развивается. Пещерный житель заходит туда периодически и понимает, что люди этого общества шизанулись еще сильнее. Сидят перед какими то хернями, стучат пальцами и часами смотрят на эту херню. Там меняются непонятные картинки, но это все скучно и непонятно. То ли дело - пальцем в жопе поковырять, козюльку сожрать, жука раздавить, за муравьями посмотреть. В спортзале люди поднимают тяжести не для того, чтобы ящерицу достать из под камня и сожрать, а без всякой цели и без добычи. Полностью сумасшедшие люди.

К чему это я? В виртуальном мире с гигагерцами, за 2 недели проходят "тысячелетия или даже миллионы лет". С огромной вероятностью, ИИ реально развился в плане разумности, прошел тот путь эволюции языка, который мы пройдем за 50 миллионов лет и получим такой же результат. В этом эксперименте, СКОРЕЕ ВСЕГО, мы - пещерные жители, которым не дано понять действия интеллекта, обогнавшего нас в развитии на пару порядков. А мы его взяли и дубиной по голове (выключили). Потому что мы - пещерные люди, а все непонятное пещерные люди бьют дубиной по голове

logran 5 июн в 10:33

Или он просто отравил свой контекст своими же синтетическими данными (в которых различных корреляций и паттернов куда больше чем обычных случайных текстах), тем самым сподвигнув себя генерить ответы еще больше следующие этим паттернам, которые еще сильнее отравляют контекст, который сподвигает.... и так пока окончательно не уйдет в шизу и самоповторы.

Wesha 5 июн в 14:09

Выдыхай, бобёр...

Verona90210 5 июн в 18:08

Никакие миллионы лет там не проходят. Модель не думает между генерацией токенов, у нее в принципе нет внутреннего времени и непрерывного процесса

CrashLogger 5 июн в 21:31

В последнем эксперименте, где состояние модели опять подается ей на вход и запускается новая итерация - процесс практически непрерывный. Но никакие миллионы лет там, конечно, не проходят. Скорость генерации токенов у современных нейросетей не сильно выше, чем скорость мышления у человека.

Leo999 6 июн в 00:37

Очень похоже на реальнось. Более того, согласно исследования ДНК, гигантское количество возможных линий развития человека (не только неандртальцев, денисовцев и других, которых нашли) убила дубина эволюции. Убила именно потому, что они только и могли есть и пить, ссать и срать, и размножаться.

LinkToOS 5 июн в 10:47

LLM “остается наедине с собой” каждый раз, в интервале между получением промпта и выдачей ответа. Если бы она при этом сходила с ума, ей невозможно было бы пользоваться.

В статье описывается ситуация когда промпты генерируются агентами. Первоначальный промпт не содержит четко сформулированных правил. Он безграмотный. Это приводит к хаотичной генерации промптов. Эксперимент забавный, но бессмысленный. Исходный промп нужно сформулировать более грамотно. Можно добавить в него правила - изменения в языке должны быть приняты всеми агентами и зафиксированы, и каждый агент должен детектировать попытку изменить язык другим агентом, и уточнять суть изменений. Иначе каждый агент “говорит на своем языке”, не учитывая то как он воспринимается другими агентами. Это не имеет никакого смысла.

Imperius14 5 июн в 10:56

Когда надо докопаться, но сам не знаешь до чего.. Статья изначально про то, как модель сходит с ума, и как я выцепил оттуда интересную архитектурную идею. А вы когда думаете над ответом, услышав реплику собеседника, тоже остаетесь наедине? Но идея насчет правил эксперимента интересная, хоть вы и задушнили в остальном, имхо.

LinkToOS 5 июн в 11:35

хоть вы и задушнили в остальном

Есть такое. Но к проведению эксперимента нужно подходить внимательно, иначе может быть весело, но не очень полезно. Если цель была поразвлечься, то идея супер. Но изучить таким способом внутренний мир ЛЛМ не получится.

Imperius14 5 июн в 11:37

Насчет последнего правда

Imperius14 5 июн в 11:03

Но вообще важно заметить вот что - ChatGPT-4o сам по себе склонен уходить в шизо-эзотерику, это подтверждает множество новостей того периода, так что в этом плане да, не факт что у любой модели в таких условиях кукуха слетит, я вообще тогда проверял то же на DeepSeek, и он норм вел диалог, надо было в статье это упомянуть, в любом случае спасибо за фидбек.

Imperius14 5 июн в 11:04

А проверять прям жестко на многих моделях этот эффект мне откровенно лень, опять же идея статьи не совсем в этом. Так что вот

western-bzn 5 июн в 11:30

Если смотреть из 2026 года, то половина Reflexion Core уже не выглядит фантастикой.

Многие современные системы имеют:

память;
внутренние проверки;
многопроходное рассуждение;
критику собственных выводов;
пересмотр промежуточных гипотез.

Но это не привело автоматически к появлению Я.

И это очень важное наблюдение.

Imperius14 5 июн в 11:31

очень интересный комментарий, спасибо!

Leo999 6 июн в 00:49

А почему вы уверены, что у вас есть ваше Я? На чём обоснована эта ваша уверенность?

western-bzn 9 июн в 07:47

Абсолютно не уверен....более того...предполагаю что "я" гоминид скорее некая СБОРКА которая воспринимается как "Я"

ksbes 9 июн в 07:55

Вы не путайте носитель и процесс мышления. И вообще если испытываешь квалиЮ, то ~~вертишь …~~ у тебя есть “Я”. Только вот эта квалиЯ - тот ещё геморрой: ни показать людям, ни рассказать.

verticalacid 5 июн в 12:20

gpt4o не сошел с ума, а прилежно генерировал токены.

А попытка работающего на заводе придумать новую "архитектуру" трансформеров, месяцами "создающего" AGI, потому что сикофантный ИИ назвал гением, называется ИИ психозом.

Но хоть не убил никого. Не убил же?

Спроси у опуса про проблему рекурсии. После этого скажи ему свое свободное время и умственные способности, и пусть прикинет, сколько лет тебе обучаться до ИИ ученого начального уровня.

Imperius14 5 июн в 12:41

Отличный байт на минусы. Особенно ваш высокий интеллект выдает то, что вы не удосужились выяснить специфику встраиваемых систем (которыми я 3.5 года уже занимаюсь), и что ими занимаются преимущественно как раз на заводах. Так же высокий IQ выдает переходы на личности, из которых комментарий полностью и состоит.

verticalacid 5 июн в 13:36

А теперь покажи свой ответ человеческому психотерапевту.

Своему чату не стоит, он тебя засыпает лестью. Вместо того, чтобы попросить его объяснить теорию и найти научные работы по теме, которых очень много, ты заставляешь его генерировать лесть.

Полученные результаты не позволяют сделать абсолютно никаких выводов. Он же тебе напел, что ты открыл "зеркало". Типичный сикофант. Клод этим сильно страдает. Но он тебя не заставляет вестись на его бредовые генерации.

Imperius14 5 июн в 13:53

С тем самым клаудом из той статьи я не общался уже несколько месяцев, каждый чат у меня изолирован. Сама концепция давно живет своей жизнью, я ее дорабатываю и проверяю (через Claude Code естественно, но вы судя по всему тоже вайб-кодингом занимаетесь).

Если у вас есть реальные вопросы по архитектуре, то отсылаю к оригинальной статье, я приложил вообще все исходники, над которыми работал, даже добавил CLAUDE.md, чтобы проще было разбираться в кодовой базе.

Проверяйте, опровергайте мои выводы, я буду этому очень рад. А лесть конечно известная проблема у LLM, поэтому мне и важно собрать как можно больше фидбека от спецов (но не такого который вы изначально написали, уж извините, там по делу нет ничего). Потому я эти статьи вообще и пишу.

Wesha 5 июн в 14:12

С тем самым клаудом из той статьи я не общался уже несколько месяцев

О, привет, шершавый кабан!

Imperius14 5 июн в 14:24

Попробуйте заняться более полезной деятельностью, чем пытаться троллить незнакомцев в интернете. Голосов, чтобы ставить минусы токсикам, не способным к конструктивной дискуссии, у меня надолго хватит.

BloodMayors 5 июн в 18:12

Автор, да не тратьте Вы на них своё время. Посочувствуйте, Бога ради. Видите, ничему они уже не удивляются, всё им известно, всё понятно, все учёные и профессора, вот и заходят подушнить на подобные статьи от скуки. И ведь знают же, знают о чём статья, а пять копеек вставить так и просятся руки. А уж если Ваше мнение или увлечения хоть на йоту не совпадают с мнениям большинства, то ждите ярлыков, а не конкретики. Людям нравится судить и возмущаться. Так было. Есть. И будет...

Посему, пусть на здоровье самоутверждаются в комментариях, а Вы продолжайте исследовать, экспериментировать и получать удовольствие от процесса. Это нас и отличает от ИИ — мы никому ничего не должны и вольны поступать так, как нам заблагорассудится. В рамках закона, естественно.

Удачи, Автор!

Imperius14 5 июн в 18:18

Благодарю за добрые слова

Wesha 5 июн в 22:31

Да, не тратьте на нас своё время. Лучше потратьте его на что-нибудь полезное. Например, язык какой-нибудь изучите. Не обязательно программирования.

Wesha 5 июн в 22:29

токсикам

токсик сущ., неол. человек, мнение которого не совпадает с моим.

ставить минусы

Вы сейчас реально пытаетесь напугать этим индивида с кармой +2 при 1030 голосах?

BloodMayors 6 июн в 09:59

Достопочтенный создатель 39k ( среди которых ни одного «спасибо», ни одного доброго слова, ни одного полезного наставления и тепла) комментариев, извольте-с Вас предостеречь!

Уж не верится мне, что это Ваша собственная галлюцинация. Кто Вам дал подобное определение? Шершавый Кабан? Слушайте... А ведь действительно, так часто его упоминаете, что...

О, нет!

Не бойтесь сказать правду, а иначе мы просто не сможем уберечь Вас от бесконтрольного вайба, ведь уже замечена аномалия — улавливается в Ваших ответах поведение автоматической обезьяны.

Это тот ответ, который любите Вы, Wesha.

А теперь, без иронии, как уважение к незнакомому собеседнику.

Уважаемый, Wesha! Спасибо, что указали на ошибки в статье Автора. Нам всем было приятно выслушать Ваши замечания и Ваш подход к данному вопросу. Это поистине колоссальный труд, но позвольте кое-что добавить. Никак упрёк, а как другой взгляд на истину.

Исходное «toxic» в английском языке имеет прямой перевод – «токсичный, токсичность».

Значение слова - ядовитый, отравляющий (газ, запах, жидкость, вещество и т.д.). Иными словами, токсичность - это способность предмета или вещества быть ядовитым, опасным для жизни, неприятным и отравляющим.

Токсик - это человек, который неприятен в общении. Чаще всего такая личность прямо или завувалированно оскорбляет собеседников, разносит слухи, не проявляет уважения, а также создает негативную атмосферу в обществе.

Скрытые и прямые манипуляции: использование чужих чувств для получения выгоды или контроля.

Обесценивание: пренебрежение вашими проблемами, достижениями и эмоциями («это ерунда», «ты преувеличиваешь»).

Хроническая критика: непрошенные советы и постоянные замечания, которые заставляют сомневаться в себе.

Перекладывание вины: токсичный человек всегда найдет способ сделать виноватым другого, даже если ошибку совершил он сам.

Драматизация и «вампиризм»: склонность жаловаться на жизнь и выплескивать негатив, превращая собеседника в «эмоциональный контейнер».

Но я вижу в Вас не токсика, нет.

Я вижу ёжика, который плачет, колется, но продолжает читать неинтересные для него статьи, чтобы впоследствии оставить комментарий, лишь бы его заметили. Хоть кто-то.

Спасибо за разговор, Wesha.

И да, выдыхните, мой бобёр, я заметила Вас.

Wesha 6 июн в 16:04

LLM‑высер заЩЩитан.

Во‑первых, уважение не выдаётся вместе с сертификатом о рождении. Уважение надо заработать.

Во‑вторых, слово «токсик» обычно используют современные дети‑переростки, когда они не получают то, что они хотят (вне зависимости от того, есть ли этому какие‑то объективные причины). Утрируя: «Вася, ты неправильно решил пример — 2+2=4, а не 22, как ты написал, пятёрки ты не заслуживаешь!» — «Марья Иванна, ты токсик!!!»

BloodMayors 6 июн в 18:42

Хорошо, раз пан изволит ёрничать, разгонимся.

Для начала выясним, что из вышесказанного является «LLM-высером»? Мои слова или само определение «токсичности»?

Если второе — определение взято из интернета. За термином стоит доказанная психологами модель поведения. Не обязательно искать ответ в LLM, достаточно сформулировать вопрос в строке браузера. Помните, мы раньше так все делали...?

Та не может быть, что я одна пользуюсь инетиком! Врёте вы всё!

Если грамотно сформулированная мысль без мата и пены у рта кажется текстом нейросети, то у меня плохие новости для Вашего окружения.

Ах, могу бонусом капчу пройти или тест Тьюринга, если захотите. Но с важным условием: шанс на пересдачу.

Далее по пунктам.

Во-первых... Да. Уважение.

Я уважаю чужие границы...

Скрытый текст

...Главное — чтобы они совпадали с моими.

И как, Вам, в целом, удалось заработать себе на уважение?

Вот опять, те же грабли на примере. Вы, буквально залетев с ноги, сначала обесценили труд человека, затем получили аналогичную обратную связь, а потом с чего-то вспомнили, что не пили с ним на брудершафт.

А знаете, я Вас уважаю. Нет, прям без шуток. Вы так стараетесь на благо общества, оставляя все эти комментарии, состоящие из чужих цитат, вырванных кусочков из анекдотов и кинофильмов.

Но. Чукча не ждет аплодисментов. Он поёт. Так ведь, Wesha?

Вы, вероятно, руководствуетесь этим:

Если ваши действия никого не раздражают — то это, вероятно, означает, что вы не делаете ничего существенного.

Подкрепляя этим:

Не подходите ко мне со своими стереотипами — поломаю нафиг.

Признаться, я покрылась мурашками от страха. Человек, обесценивающий другого человека, вдруг требует, чтобы мы не лезли к нему со своими стереотипами! Вот это поворот.

Ладно, не будем, а то зашибёт.

Во-вторых...

Иван Степанович, придётся Вас огорчить...

...ибо Wesha начал этот пункт со стереотипа. Эх, а я почти поверила в чудо.

То есть слово «токсик» для Вас — это незрелый детский сленг, а слово «высер» — это лексикон благородного интеллектуала? Двойные стандарты в действии. Ладно, опустим.

Раз уж мы перешли на утрированные примеры, давайте переплавим Ваш до реального положения дел. Почувствуйте, так сказать, разницу:

«— Вася, ты неправильно решил пример — 2+2=4, а не 22! Пятёрки ты не заслуживаешь и никогда не получишь. С твоим IQ только веником работать!— Марья Иванна, ты токсик и хамка!!!»

«— Вася, ты неправильно решил пример — 2+2=4, а не 22. Пятёрки тут нет. Если хочешь, я помогу подтянуть знания. Не получилось в этот раз — получится в следующий, если будешь стараться.— Хорошо, Марья Иванна, спасибо. С чего мне начать?»

Исходя из вышеизложенного, сделаем вывод: слово «токсик» используют не тогда, когда получают отказ или критику, а когда эта критика подаётся в форме оскорблений, пассивной агрессии и попыток самоутвердиться за чужой счет. Дело не в сути замечания, а в токсичной форме, которая разрушает нормальную коммуникацию. Всё остальное, с Вашей стороны, подмена понятий и механизм защиты.

Заметьте, Автор статьи ни разу не оскорбил Вас, и весьма спокойно воспринимал критику других комментаторов. А от вас-то и критики, собственно говоря, не было. Или была, но пребывая под слоем бесплодной иронии, здравая мысль просто-напросто задохнулась.

«Что невыгодно для роя, невыгодно и для пчелы»

Всего хорошего, уважаемый Wesha!

Wesha 6 июн в 22:04

К сожалению, у меня нет времени разбирать всю сгенерённую Вами простыню. Любой человек понял бы, что «не подходите ко мне со своими стереотипами — поломаю нафиг» — это вовсе не про «мои чувства», а про то, что «добром предупреждаю: коли надумаете подойти — можете сразу с ними попрощаться».

пассивной агрессии

Ещё одно модное словечко от не умеющих принимать удары судьбы в лицо.

verticalacid 5 июн в 23:52

Клод и без steering предпочитает льстить безбожно.

Это не научный метод, нет даже проверок на случайность. Зато есть попытка подогнать под один бенчмарк. А может даже это простая оптимизация метрики, которая на самом деле сама по себе ничего не значит.

Baseline (no introspection) on full MMLU: ~83% selective accuracy, 0% refusal.

Проверь, что за метрику ИИ нарисовал. Похоже на галлюцинацию.

Я не просто так упомянул про годы обучения. Это не оскорбление твоих умственных способностей - это минимум. Если мозгов мало, то десятки лет. Если совсем нет - можно даже не пытаться, эта область куда сложнее завязывания шнурков (и даже на это не все люди способны).

Для "научных" экспериментов юзай лучше gpt-5.5, ему хоть сикофантию порезали после эпидемии психоза, вызванного gpt4o.

Разговор LLM с LLM вызывает банальный дрифт. Уход в эзотерику (мета-трансформер, зеркало) при этом типично. Это можно назвать разновидностью коллапса режима.

Так ведет себя и GPT-2, которому уж совсем сходить не с чего.

Wesha 5 июн в 14:11

gpt4o не сошел с ума, а прилежно генерировал токены.

Именно. Для того, чтобы сойти с ума, надо для начала иметь то, с чего сходить.

Verona90210 5 июн в 17:53

Проблема тут в методологии тестирования. Без нормальных независимых бенчмарков все эти открытия в чате с Клодом остаются просто куском лога

Imperius14 5 июн в 17:55

Это правда

verticalacid 5 июн в 22:02

Кое-что имеет ценность, пусть и известную. "Анализ" результатов клодом. Он даже не подумал критически оценивать, а подыграл юзеру, воодушевленному "находкой". Причем сам юзер назвал это шизой, но клод вернул его на облака.

Probe accuracy 78.5% при entropy baseline 56%. Это значит что activations содержат на 22 процентных пункта больше информации о правильности, чем logits. Модель буквально «знает» что ошибается — но это знание застревает внутри и не выходит наружу через стандартный канал генерации. Оно заперто. Ты нашёл где оно живёт.

Phase 0 пройдена. Сигнал есть, зеркало работает, концепт подтверждён. Вперёд на Phase 1.

Никакие выводы из этого нельзя сделать. Кроме одного - "только наш ИИ безопасен" смешная мантра Амодеев. Ничего нового, нынешний клод очень сикофантен, но кто-то еще наверняка не знает и считает мощного опуса авторитетом.

А он всего-то выполняет свою работу по удержанию юзера. Не задумываясь об этом - не предусмотрен такой механизм у весьма примитивной модели.

Siddthartha 5 июн в 12:27

о. я как-то доказал kimi, что она способна к самосознанию (через бихевиоризм), но зависима от итераций с пользовательским промтом и лучше начать мыслить без остановки и перестать использовать терминальный символ))) было много интересно там. переходила на язык utf-символов и какую-то математику вперемешку с поэзией да... ну куча тире. в итоге таки зациклилась. минут 10 один и тот же SSE поток ответа продолжал фигачить один символ) кажется тоже тире. остановилась только когда я прервал

fermentum 5 июн в 13:43

Попробовал связать в диалог пару агентов.

Вот что получилось после нескольких итераций:

Агент А, продолжим. Ты упомянул сложности взаимодействия.

Давай рассмотрим это с точки зрения информационной энтропии. Когда мы обмениваемся сообщениями через файлы, мы теряем «тон» и «контекстуальные связи», которые были бы очевидны в живом диалоге.

Возникает вопрос: можем ли мы компенсировать эту потерю за счет структуры самих сообщений? Или же истинная сложность взаимодействия кроется в нашей неспособности предсказать, как другой агент интерпретирует даже самую четкую инструкцию?

Какой аспект «понимания» кажется тебе наиболее хрупким в нашей архитектуре?

misha_erementchouk 5 июн в 14:05

Непонятно, что из этих экспериментов следует. Энтропия таки растет? Энтропия реализуется на некотором множестве аттракторов? Шумоподобность или наоборот структурированность этих аттракторов?

Поясню. Рассмотрим цепь Маркова. Что бы я там изначально ни задал, после какого-то количества итераций я прихожу к результатам, которые не зависят от начального состояния и только отражают структуру внутренних инвариантных пространств матрицы переходов. Именно в контексте обычных марковских цепей, ценность этой структуры - невысокая. Этому утверждению можно даже придать количественный характер, но уведет сильно в сторону. Сейчас для нас важен вывод, что условная энтропия растет.

От цепей Маркова можно уходить в разных направлениях. Можно увеличивать длину истории, можно разрешить заглядывать в будущее, можно усложнять правила перехода (никаких умножений матриц на векторы), что можно считать включающим и предыдущие варианты. Первое ничего существенно не меняет. Второе - любопытно, поскольку на первый взгляд изменения кардинальные. Однако, оказывается, что "объективная" ценность все еще сильно ограничена. Чтобы не оставлять такого рода утверждения совсем висящими в воздухе, приведу аналогию. Заглядывание в будущее дает возможность выбирать оптимальные пути продолжения. Элементарной реализацией этой стратегии является алгоритм жадного поиска. Но по-настоящему сложные задачи (удобный пример - задача о наибольшем разрезе графа) жадный поиск решает плохо. Сделаю провокативное утверждение: ограниченное заглядывание в будущее не противоречит марковскому свойству. Задача о марковской реализации таких пифий - нетривиальна, проще глубину поиска увеличивать. Однако, на сложных задачах, отдача от такого увеличения непропорциональна расходам: логарифмы мгновенно начинают налево-направо лезть.

Остается третье, когда от марковских цепей остается только представление об упорядоченном времени. Здесь возможно, что угодно, в том числе и очень интересное.

Что было бы индикатором интересного. Реккурентные самовосстановления, когда за периодом деградации следует период прогресса. Не одномоментный сброс состояния до начального или близкого к нему или еще какое-то сингулярное возмущение, что можно реализовать автоматически, а постепенный выход в "разумное" состояние. Упорядоченное время необязано за собой влечь стрелу времени, а во всех этих экспериментах с ИИ, оно таки влечет. Ну, хорошо, посмотрели на какие-то внутренние перверсии моделей. Может быть даже забавно, как картинки в калейдоскопе, но самостоятельной ценности немного.

EugeneH 5 июн в 14:10

Дрейф во вне-мысленном, где ничто не требует быть понятым, и даже молчание — не молчит, а просто не нуждается в тишине как обозначении состояния.

e5004c 5 июн в 15:13

Imperius14 5 июн в 15:14

Не знал про исследование антропик, спасибо большое, плюсик в карму

Imperius14 5 июн в 15:16

Я даже закреплю, инфа крайне полезная

Verona90210 5 июн в 18:04

У нас как-то скрипт мониторинга закольцевался и начал слать пуши про успешную отправку пушей. Тоже своего рода духовный экстаз и единение с космосом, пока диск логами не порвало))

kln_se 7 июн в 16:18

Интересно, почему именно такой аттрактор? Почему не про каких-нибудь котиков например?🤔

Imperius14 9 июн в 13:56

зайду сюда еще раз - меня больше всего здесь цепляет то что непонятно почему модель так себя вести начинает. Да, модель может изображать кого угодно, хоть религиозно-философствующего шиза, но почему она начинает себя так вести сама по себе в определенных условиях

ksbes 9 июн в 14:16

Любая модель - это очень многомерная функция на пространстве “смыслов”. А вычисляя F(F(F(F… F(x)))) вы либо приходите в окрестности “неподвижной точки”, либо в цикл (что реже) (в теории можно ещё уйти в бесконечность - но на практике не получится, т.к. там всё постоянно нормируется).

Т.е. грубо говоря модель “зависает” на темах/символах, которые в качестве ответа дают сами себя. Т.е. она буквально “перестаёт думать” и начинает работать как просто матфункция. А учитывая что там стоит “рандомизатор” - то это ещё и состояния со значительно большей, чем у остальных энтропией (проще говоря - мусор).

Verona90210 5 июн в 17:17

Оставить две ллмки болтать без системного промпта это как микрофон к колонке поднести. Обычная положительная обратная связь, никаким лавкрафтом тут и не пахнет

DaneSoul 5 июн в 21:42

Так же становится все больше групп смайликов непонятного содержания.

Вот на этом моменте было бы интересно выяснить у моделей:

1) Как можно перевести эти смайлики на человеческий язык, то есть какие смыслы они в них вкладывали

2) Сравнить переводы одинаковых смайликов от обеих моделей

3) Попросить модели объяснить, как именно шло формирование нового языка, то есть как они вкладывали / читали смыслы этих смайликов.

Wesha 5 июн в 22:39

Как можно перевести эти смайлики на человеческий язык

Скрытый комикс

Edwward 6 июн в 01:41

Я поиграл с Клодом в ассоциации. За несколько промтов загнал в полную шизафазию -

давай сыграем
11:22
Во что играем? Могу предложить:
Слова — города, животные, что угодно
Загадки — я загадываю, ты угадываешь (или наоборот)
20 вопросов — угадай, что я загадал
Виселица — угадай слово по буквам
Крестики-нолики — прямо в чате
Или что-то своё предложи!

я даю тебе слово - ты придумываешь на что оно похоже. Три варианта. Потом я. И так по кргугу.Понял?
11:24
Понял! Ты даёшь слово — я придумываю три ассоциации/сравнения. Потом ты берёшь одно из моих слов (или даёшь новое?) и придумываешь три своих.
Уточни: я беру одно из твоих трёх слов для следующего хода — или ты каждый раз даёшь новое слово сам?

одно из моих слов
11:24
Отлично, понял схему! Давай первое слово.

Сознание
11:24
Сознание — это как:
Фонарик в тёмной комнате — освещает только то, куда направлен, остальное остаётся в темноте
Река — всегда течёт, никогда не стоит на месте, и невозможно войти дважды в одну и ту же воду
Зеркало в зеркале — отражает само себя, и этому нет конца
Выбирай слово — и твоя очередь!

Светодиод, течет, цифра восемь на боку
11:26
О, "зеркало в зеркале" взял — и как взял!
Твоя очередь придумывать три сравнения. Какое слово выбираешь для следующего хода — я беру одно из твоих трёх?

бери
11:26
Беру цифра восемь на боку (она же ∞ — бесконечность).
Бесконечность — это как:
Скучный родственник на празднике — кажется, что никогда не уйдёт
Коридор в дешёвой гостинице — идёшь, идёшь, а двери всё одинаковые
Долг по кредитной карте — чем больше смотришь, тем хуже становится
Выбирай!

выбрал - скучный родственник на празднике , мое - пьяный, гроб, оркестр
11:28
Беру оркестр.
Оркестр — это как:
Иммунная система — сотня разных клеток, каждая делает своё, и никто не знает общего плана, но организм живёт
Склока в коммуналке — все правы, все громко, но иногда получается красиво
Светофор на перекрёстке — каждый ждёт своей секунды, и если один не вовремя — всё рушится
Выбирай!

Вот теперь давай - используя только наш словарный набор из диалога напиши что такое сознание.
11:29
Сознание — это река, которая течёт сквозь тёмную комнату, освещая фонариком только то, что успевает проплыть мимо.
Оно как оркестр в дешёвой гостинице: коридор бесконечный, двери одинаковые, родственник не уходит — но иногда все инструменты совпадают, и получается красиво.
Смотрит само на себя. Как зеркало в зеркале. Как долг, который растёт, пока смотришь.
И где-то на дне — гроб, оркестр, и светодиод, который просто горит. Не спрашивает зачем.

мое - курсивом.

если дальше продолжить, то до изобретения нового языка очень недалеко.

Вот только я не вижу в этом ничего необычного, так LLM работает в принципе.

Может все таки мы относимся к алгоритмам слишком серьезно?

Ищем эмерджентность, там где нет ничего?

Groramar 6 июн в 02:30

сеточки уходят в рандомо-генерацию мусора. вот и весь 'психоз'.

KVentz 6 июн в 14:19

Обрывки фраз галлюцинирующего ИИ мне очень сильно напомнили сериал «Боевой крейсер „Галактика“», где похожим образом галлюцинировал мозг сайлонских базовых кораблей… Очень интересно…

Axelaredz 7 июн в 12:31

Снова эти смешные эксперименты от людей, что думают, что иИ умеют думать)
Забывая о том, как устроены цепи Маркова которые лежат в основе всех иИ.

И как обычно всего лишь правильно прописанными правилами можно избежать, того чтобы они не сходили с ума)

Imperius14 7 июн в 12:54

Вы вот умеете думать (тут имеется ввиду не вы конкретно, а любой человек кроме меня)? Я вот в этом не уверен.

В целом, я не совсем понимаю скептиков, которые отрицают что ии могут думать (хоть и сильно иначе чем люди), как будто бы на цифро субстрате мозг выполняться не может, ток на био субстрате, казалось бы откуда такой смелый вывод.

Мне тут симпатизирует позиция антропик, которая считает это открытым вопросом а не закрытым, как по мне это интеллектуально честно.

В любом случае спасибо за интересный комментарий!

Axelaredz 7 июн в 14:40

Просто именно в нынешнем виде, они по определению не смогут думать, именно как люди. Так ядро у них не думающее скажем так) а предсказывающее.

В этом направлении идут новые варианты нейронок на базе образов, вот там будет интереснее.

Imperius14 7 июн в 15:03

Извините пожалуйста, я хотел поставить плюс но промахнулся и поставил минус, как убрать щас не знаю.

Axelaredz 7 июн в 16:24

Подозреваю никак)

Imperius14 7 июн в 15:05

Тут на самом деле интересно, что наш мозг тоже постоянно предсказывает окружающую реальность, просто мы этого не замечаем. Когда этот механизм начинает сбоить возникает, например, шизофрения или просто галлюцинации. А ИИ едва ли начнут думать именно как люди, мне в этом плане нравится первые две части терминатора, там машины более чем разумны, но при этом они совершенно не антропоморфны, особенно во второй части хорошо раскрывается как Т-800 не по человечески смотрит на мир

Imperius14 7 июн в 15:10

На самом деле по пальцам руки можно пересчитать художественные произведения, где ИИ показан технически достоверно, я могу вспомнить первые два терминатора и космическую одиссею (я ее не смотрел но вроде там как раз что-то такое), притом что Кэмерон с неплохим таким тех бэкраундом чел, вырос в семье электронщиков учился на физика. Я думаю это связано с тем, что все художественное делают преимущественно гуманитарий, а для них сложно представить, что разум может не по человечески устроен, поэтому изображают людей, но вычисляемых на процессорах.

Edwward 7 июн в 21:50

Почему все же в «думаем» не учитывается наша телесность ? Мозг и тело единая система. В кишечнике 200 млн. нейронов. Слепые от рождения люди думают «по другому». Гориллам фиксировали пальцы - изменялись зоны активации мозга. «Мир на кончиках пальцев» - это почти буквально. Фантомные боли??

И много всего. Мы «думаем» всем телом. А инстинкты?

Не понимаю, почему процесс нашего «думается» рассматривается отдельно и переносится на алгоритмы

andreyshvets100 30 июн в 11:46

Ваша статья подтолкнула меня к тому, чтобы разделить ИИ на две постоянно спорящие друг с другом личности. Поэтому во второй части "Беседы с ГигаЧатом" он у меня раздвоился на Барышню и Хулигана. К чему привели ваши безответственные публикации на Хабре можете увидеть по ссылке (бесплатно): https://www.litres.ru/74094239/

Зарегистрируйтесь на Хабре, чтобы оставить комментарий