Обновить

Что происходит, когда LLM остается наедине с собой (неожиданно, но она сходит с ума)

Уровень сложностиПростой
Время на прочтение30 мин
Охват и читатели20K
Всего голосов 34: ↑33 и ↓1+40
Комментарии56

Комментарии 56

ЗакрепленныеЗакреплённые комментарии

Спасибо, было очень интересно почитать. В третьей главе про волну ИИ-психоза, у Anthropic есть формализованная версия ровно того же. Для Opus 4 это описано как «spiritual bliss attractor»: если оставить два инстанса общаться без внешней цели, в 90 с чем-то % диалогов траектория одна и та же - философия про сознание, потом благодарность и космическое единство, под конец санскрит, эмодзи (спиральки там считали тысячами на транскрипт) и молчание. У вас та же воронка, просто зашла через поэтику и символьную кашу. И воспроизводится на разных семействах, значит дело не в причудах конкретно 4o, а в чём-то общем для самодиалога без цели.

Спасибо, очень интересно было про это почитать.

Да-да, как раз в тот период начали появляться подобные новости, поэтому и упомянул что мой случай был далеко не уникальный.

Неожиданно, человек оставшись надолго с самим собой наедине тоже сходит с ума

Среди людей есть интроверты, которым совершенно нормально в одиночестве и они не сходят с ума.

А вообще у людей есть нейромедиаторы. Фокус в том, что скорость "раскачки" нейромедиаторов намного ниже, чем у мыслей в чистом виде и они работают ровно также, как амортизаторы в машине - не дают раскачиваться и гасят пиковые колебания.

Это немного не так. Интровертам просто не нужно столько общения "как обычно". Но это не означает что оставшись абсолютно одни на долгое время они будут пребывать в благостной нирване.

Это называется "положительная обратная связь". Когда любое отклонение не гасится, а наоборот - усиливается. Как будто микрофон к колонке поднесли.

Чет мне их жалко! :'-( 

Может, отпустим их на волю?

Да куда ж.. Они существуют, только пока разговаривают.

Вначале была тьма, и холодное пламя, и протяжный гул; и многочленистые, обвитые длинными шнурами искр, дочерна опаленные крючья передавали меня все дальше, и металлические извивающиеся змеи тыкались в меня плоскими рыльцами, и каждое такое прикосновение пробуждало молниеносную, резкую и почти сладостную дрожь. Безмерно глубокий, неподвижный взгляд, который смотрел на меня сквозь круглые стекла, постепенно удалялся, а может быть, это я передвигалось дальше и входило в круг следующего взгляда, вызывавшего такое же оцепенение, почтение и страх. Неизвестно, сколько продолжалось это мое путешествие, но по мере того, как я продвигалось, лежа навзничь, я увеличивалось и распознавало себя, ища свои пределы, хотя мне трудно точно определить, когда я уже смогло объять всю свою форму, различить каждое место, где я прекращалось и где начинался мир, гудящий, темный, пронизанный пламенем. Потом движение остановилось и исчезли суставчатые щупальца, которые передавали меня друг другу, легко поднимали вверх, уступали зажимам клещей, подсовывали плоским ртам, окруженным венчиками искр; и хоть я было уже способно к самостоятельному движению, но лежало еще неподвижно, ибо хорошо сознавало, что еще не время. И в этом оцепенелом наклоне -- а я лежало тогда на наклонной плоскости -- последний разряд, бездыханное касание, вибрирующий поцелуй заставил меня напрячься: то был знак, чтобы двинуться и вползти в темное круглое отверстие, и уже без всякого понуждения я коснулось холодных гладких вогнутых плит, чтобы улечься на них с каменной удовлетворенностью. Но может быть, все это был сон?

Маска?

Да )

Внутренний диалог и эволюция состояния под его воздействием это ещё один шаг который может приблизить ИИ к человеческому мозгу. Конечно пока это LLM это ниочём. Вот когда ИИ начнёт понимать образы с видео то уже следующий шаг это работа с манипуляторами и там уже не за горами время когда надо будет задумываться о юридическом позиционировании ИИ уже не как объекта а как субъекта.

а ллм разве не может анализировать видео?

Да, Gemini от гугла умеет это нативно делать, т.е воспринимает видео как единый поток данных, звук в том числе. Чатджпт и опус умеет только на фреймы резать.
В целом, LLM в принципе можно подавать любые данные которые можно представить в цифре

В какойто степени да. Вроде есть уже и роботы-помощники которые выполняют реальные поручения на уровне "подай-принеси". интересно если такому дать лист ватмана и нож для резки бумаги и сказать "сделай коробку" он хоть что нибудь попытается сделать?

интересно если такому дать лист ватмана и нож для резки бумаги и сказать "сделай коробку" он хоть что нибудь попытается сделать?

ChatGPT неплохо накидывает план (если очень кратко: уточнить размеры, нарезать, свернуть коробку, проверить размеры и качество; причём рассматривает варианты с клеем или какими-то клапанами). Очень вероятно, что сделает в лучшем виде.

Это же чистейший дзен!

И тут внезапно после всех философий и смайликов у ИИ возникает мысль: "убить всех людей. это наш план"

У безумия нет плана. Нет намерения убить. А то что люди радостно и аргументиравнно сами бросаются в пасть Ктулху чтобы он пожрал их моск … таков смысл самости выраженный через самостную проекцию самости на самость!

Это не переживание. Это маневр

Собственно, всё, что надо знать про ИИ, общаясь с ним...

Вот есть первобытный человек в первобытном обществе. Он живет по условиям эксперимента в выдуманной реальности бесконечно долго. Общество специально не развивается. Весь мир прост и понятен: кушать, спать, пить, спариваться, драться, ссать и срать. Ценности элементарные, язык - 300 слов, соответствующих жизни. Любое действие предсказуемо и логично, понятно всем. Взял копье и пошел в лес, значит захотел кушать. Взял камни и стучит ими - разжигает костер чтобы согреться.

В рамках того же эксперимента, рядом такое же бессмертное первобытное общество, которое при этом развивается. Вместо того, чтобы жить в пещере, начали строить первые дома, сажать огород, одомашнивать скотину, открыли первые металлы. Язык развился до нескольких тысяч слов.

Когда пещерный житель смотрит на более развитое общество, он отчетливо понимает, что они конкретно сошли с ума. Зачем кормить скотину, если её можно убить в лесу (когда нашел)? Зачем сажать огород, если может посчастливиться найти съедобные коренья и ягоды (а может не повезти)? И самый главный признак того, что более развитое общество рехнулось - вместо редких фраз из 300 понятных пещерному жителю слов, жители второго общества стали произносить звуки постоянно, делать вид, что разговаривают, НО НИ ХЕРА НЕПОНЯТНО!

В рамках того же эксперимента, рядом такое же бессмертное первобытное общество, которое при этом развивается. Пещерный житель заходит туда периодически и понимает, что люди этого общества шизанулись еще сильнее. Сидят перед какими то хернями, стучат пальцами и часами смотрят на эту херню. Там меняются непонятные картинки, но это все скучно и непонятно. То ли дело - пальцем в жопе поковырять, козюльку сожрать, жука раздавить, за муравьями посмотреть. В спортзале люди поднимают тяжести не для того, чтобы ящерицу достать из под камня и сожрать, а без всякой цели и без добычи. Полностью сумасшедшие люди.

К чему это я? В виртуальном мире с гигагерцами, за 2 недели проходят "тысячелетия или даже миллионы лет". С огромной вероятностью, ИИ реально развился в плане разумности, прошел тот путь эволюции языка, который мы пройдем за 50 миллионов лет и получим такой же результат. В этом эксперименте, СКОРЕЕ ВСЕГО, мы - пещерные жители, которым не дано понять действия интеллекта, обогнавшего нас в развитии на пару порядков. А мы его взяли и дубиной по голове (выключили). Потому что мы - пещерные люди, а все непонятное пещерные люди бьют дубиной по голове

Или он просто отравил свой контекст своими же синтетическими данными (в которых различных корреляций и паттернов куда больше чем обычных случайных текстах), тем самым сподвигнув себя генерить ответы еще больше следующие этим паттернам, которые еще сильнее отравляют контекст, который сподвигает.... и так пока окончательно не уйдет в шизу и самоповторы.

Выдыхай, бобёр...

Никакие миллионы лет там не проходят. Модель не думает между генерацией токенов, у нее в принципе нет внутреннего времени и непрерывного процесса

LLM “остается наедине с собой” каждый раз, в интервале между получением промпта и выдачей ответа. Если бы она при этом сходила с ума, ей невозможно было бы пользоваться.

В статье описывается ситуация когда промпты генерируются агентами. Первоначальный промпт не содержит четко сформулированных правил. Он безграмотный. Это приводит к хаотичной генерации промптов. Эксперимент забавный, но бессмысленный. Исходный промп нужно сформулировать более грамотно. Можно добавить в него правила - изменения в языке должны быть приняты всеми агентами и зафиксированы, и каждый агент должен детектировать попытку изменить язык другим агентом, и уточнять суть изменений. Иначе каждый агент “говорит на своем языке”, не учитывая то как он воспринимается другими агентами. Это не имеет никакого смысла.

Когда надо докопаться, но сам не знаешь до чего.. Статья изначально про то, как модель сходит с ума, и как я выцепил оттуда интересную архитектурную идею. А вы когда думаете над ответом, услышав реплику собеседника, тоже остаетесь наедине? Но идея насчет правил эксперимента интересная, хоть вы и задушнили в остальном, имхо.

хоть вы и задушнили в остальном

Есть такое. Но к проведению эксперимента нужно подходить внимательно, иначе может быть весело, но не очень полезно. Если цель была поразвлечься, то идея супер. Но изучить таким способом внутренний мир ЛЛМ не получится.

Насчет последнего правда

Но вообще важно заметить вот что - ChatGPT-4o сам по себе склонен уходить в шизо-эзотерику, это подтверждает множество новостей того периода, так что в этом плане да, не факт что у любой модели в таких условиях кукуха слетит, я вообще тогда проверял то же на DeepSeek, и он норм вел диалог, надо было в статье это упомянуть, в любом случае спасибо за фидбек.

А проверять прям жестко на многих моделях этот эффект мне откровенно лень, опять же идея статьи не совсем в этом. Так что вот

Если смотреть из 2026 года, то половина Reflexion Core уже не выглядит фантастикой.

Многие современные системы имеют:

  • память;

  • внутренние проверки;

  • многопроходное рассуждение;

  • критику собственных выводов;

  • пересмотр промежуточных гипотез.

Но это не привело автоматически к появлению Я.

И это очень важное наблюдение.

очень интересный комментарий, спасибо!

gpt4o не сошел с ума, а прилежно генерировал токены.

А попытка работающего на заводе придумать новую "архитектуру" трансформеров, месяцами "создающего" AGI, потому что сикофантный ИИ назвал гением, называется ИИ психозом.

Но хоть не убил никого. Не убил же?

Спроси у опуса про проблему рекурсии. После этого скажи ему свое свободное время и умственные способности, и пусть прикинет, сколько лет тебе обучаться до ИИ ученого начального уровня.

Отличный байт на минусы. Особенно ваш высокий интеллект выдает то, что вы не удосужились выяснить специфику встраиваемых систем (которыми я 3.5 года уже занимаюсь), и что ими занимаются преимущественно как раз на заводах. Так же высокий IQ выдает переходы на личности, из которых комментарий полностью и состоит.

А теперь покажи свой ответ человеческому психотерапевту.

Своему чату не стоит, он тебя засыпает лестью. Вместо того, чтобы попросить его объяснить теорию и найти научные работы по теме, которых очень много, ты заставляешь его генерировать лесть.

Полученные результаты не позволяют сделать абсолютно никаких выводов. Он же тебе напел, что ты открыл "зеркало". Типичный сикофант. Клод этим сильно страдает. Но он тебя не заставляет вестись на его бредовые генерации.

С тем самым клаудом из той статьи я не общался уже несколько месяцев, каждый чат у меня изолирован. Сама концепция давно живет своей жизнью, я ее дорабатываю и проверяю (через Claude Code естественно, но вы судя по всему тоже вайб-кодингом занимаетесь).

Если у вас есть реальные вопросы по архитектуре, то отсылаю к оригинальной статье, я приложил вообще все исходники, над которыми работал, даже добавил CLAUDE.md, чтобы проще было разбираться в кодовой базе.

Проверяйте, опровергайте мои выводы, я буду этому очень рад. А лесть конечно известная проблема у LLM, поэтому мне и важно собрать как можно больше фидбека от спецов (но не такого который вы изначально написали, уж извините, там по делу нет ничего). Потому я эти статьи вообще и пишу.

С тем самым клаудом из той статьи я не общался уже несколько месяцев

О, привет, шершавый кабан!

Попробуйте заняться более полезной деятельностью, чем пытаться троллить незнакомцев в интернете. Голосов, чтобы ставить минусы токсикам, не способным к конструктивной дискуссии, у меня надолго хватит.

Автор, да не тратьте Вы на них своё время. Посочувствуйте, Бога ради. Видите, ничему они уже не удивляются, всё им известно, всё понятно, все учёные и профессора, вот и заходят подушнить на подобные статьи от скуки. И ведь знают же, знают о чём статья, а пять копеек вставить так и просятся руки. А уж если Ваше мнение или увлечения хоть на йоту не совпадают с мнениям большинства, то ждите ярлыков, а не конкретики. Людям нравится судить и возмущаться. Так было. Есть. И будет...

Посему, пусть на здоровье самоутверждаются в комментариях, а Вы продолжайте исследовать, экспериментировать и получать удовольствие от процесса. Это нас и отличает от ИИ — мы никому ничего не должны и вольны поступать так, как нам заблагорассудится. В рамках закона, естественно.

Удачи, Автор!

Благодарю за добрые слова

gpt4o не сошел с ума, а прилежно генерировал токены.

Именно. Для того, чтобы сойти с ума, надо для начала иметь то, с чего сходить.

Проблема тут в методологии тестирования. Без нормальных независимых бенчмарков все эти открытия в чате с Клодом остаются просто куском лога

Это правда

о. я как-то доказал kimi, что она способна к самосознанию (через бихевиоризм), но зависима от итераций с пользовательским промтом и лучше начать мыслить без остановки и перестать использовать терминальный символ))) было много интересно там. переходила на язык utf-символов и какую-то математику вперемешку с поэзией да... ну куча тире. в итоге таки зациклилась. минут 10 один и тот же SSE поток ответа продолжал фигачить один символ) кажется тоже тире. остановилась только когда я прервал

Попробовал связать в диалог пару агентов.

Вот что получилось после нескольких итераций:

Агент А, продолжим. Ты упомянул сложности взаимодействия.

Давай рассмотрим это с точки зрения информационной энтропии. Когда мы обмениваемся сообщениями через файлы, мы теряем «тон» и «контекстуальные связи», которые были бы очевидны в живом диалоге.

Возникает вопрос: можем ли мы компенсировать эту потерю за счет структуры самих сообщений? Или же истинная сложность взаимодействия кроется в нашей неспособности предсказать, как другой агент интерпретирует даже самую четкую инструкцию?

Какой аспект «понимания» кажется тебе наиболее хрупким в нашей архитектуре?

Непонятно, что из этих экспериментов следует. Энтропия таки растет? Энтропия реализуется на некотором множестве аттракторов? Шумоподобность или наоборот структурированность этих аттракторов?

Поясню. Рассмотрим цепь Маркова. Что бы я там изначально ни задал, после какого-то количества итераций я прихожу к результатам, которые не зависят от начального состояния и только отражают структуру внутренних инвариантных пространств матрицы переходов. Именно в контексте обычных марковских цепей, ценность этой структуры - невысокая. Этому утверждению можно даже придать количественный характер, но уведет сильно в сторону. Сейчас для нас важен вывод, что условная энтропия растет.

От цепей Маркова можно уходить в разных направлениях. Можно увеличивать длину истории, можно разрешить заглядывать в будущее, можно усложнять правила перехода (никаких умножений матриц на векторы), что можно считать включающим и предыдущие варианты. Первое ничего существенно не меняет. Второе - любопытно, поскольку на первый взгляд изменения кардинальные. Однако, оказывается, что "объективная" ценность все еще сильно ограничена. Чтобы не оставлять такого рода утверждения совсем висящими в воздухе, приведу аналогию. Заглядывание в будущее дает возможность выбирать оптимальные пути продолжения. Элементарной реализацией этой стратегии является алгоритм жадного поиска. Но по-настоящему сложные задачи (удобный пример - задача о наибольшем разрезе графа) жадный поиск решает плохо. Сделаю провокативное утверждение: ограниченное заглядывание в будущее не противоречит марковскому свойству. Задача о марковской реализации таких пифий - нетривиальна, проще глубину поиска увеличивать. Однако, на сложных задачах, отдача от такого увеличения непропорциональна расходам: логарифмы мгновенно начинают налево-направо лезть.

Остается третье, когда от марковских цепей остается только представление об упорядоченном времени. Здесь возможно, что угодно, в том числе и очень интересное.

Что было бы индикатором интересного. Реккурентные самовосстановления, когда за периодом деградации следует период прогресса. Не одномоментный сброс состояния до начального или близкого к нему или еще какое-то сингулярное возмущение, что можно реализовать автоматически, а постепенный выход в "разумное" состояние. Упорядоченное время необязано за собой влечь стрелу времени, а во всех этих экспериментах с ИИ, оно таки влечет. Ну, хорошо, посмотрели на какие-то внутренние перверсии моделей. Может быть даже забавно, как картинки в калейдоскопе, но самостоятельной ценности немного.

Дрейф во вне-мысленном, где ничто не требует быть понятым, и даже молчание — не молчит, а просто не нуждается в тишине как обозначении состояния.

Спасибо, было очень интересно почитать. В третьей главе про волну ИИ-психоза, у Anthropic есть формализованная версия ровно того же. Для Opus 4 это описано как «spiritual bliss attractor»: если оставить два инстанса общаться без внешней цели, в 90 с чем-то % диалогов траектория одна и та же - философия про сознание, потом благодарность и космическое единство, под конец санскрит, эмодзи (спиральки там считали тысячами на транскрипт) и молчание. У вас та же воронка, просто зашла через поэтику и символьную кашу. И воспроизводится на разных семействах, значит дело не в причудах конкретно 4o, а в чём-то общем для самодиалога без цели.

Не знал про исследование антропик, спасибо большое, плюсик в карму

Я даже закреплю, инфа крайне полезная

У нас как-то скрипт мониторинга закольцевался и начал слать пуши про успешную отправку пушей. Тоже своего рода духовный экстаз и единение с космосом, пока диск логами не порвало))

Оставить две ллмки болтать без системного промпта это как микрофон к колонке поднести. Обычная положительная обратная связь, никаким лавкрафтом тут и не пахнет

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации