Галлюцинации LLM. А если посмотреть с точки зрения детского психолога?

Easy

12 min

1.1K

Artificial IntelligenceMachine learning*BrainResearch and forecasts in IT*Popular science

Эпиграф: Галлюцинация одного человека — это творчество другого человека и наоборот.

Я думаю, многие пользователи LLM так или иначе сталкивались с проблемой «галлюцинации LLM» и испытывали разочарование и досаду. Я тоже сталкивался, и не раз.

Но у меня есть объяснение этому феномену, которое позволяет мне избегать самой проблемы как таковой.

Вернее, я изменил отношение к этой проблеме, предположив ее возможные причины, и научился избегать условий ее появления.

На мой взгляд, термин «Галлюцинации LLM» очень неудачный и поэтому уводит нас в сторону от понимания природы этого феномена. А его негативная (какая-то болезненная, шизофреническая) коннотация еще более усугубляет проблему.

Далее я подробно объясню, почему «яркие иллюзии», «бурные фантазии», «странное воображение», «чрезмерные увлечения», «мотивационные рассуждения» — да. А вот «галлюцинации» — нет, это уже перебор, это из другой области.

Можно сказать по-другому, выражаясь научным языком, это когнитивные искажения «неосознанная ложь» (конфабуляция), а также «мотивационное рассуждение» (motivated reasoning): когда «хочу» побеждает «могу» и здравый смысл в том числе.
Экспериментально доказано, что мотивация влияет на обработку информации, включая рассуждения, и может сильно повлиять на результат. У моделей это свойство проявляется очень ярко без механизма самоконтроля.

Есть мнение, что «галлюцинации LLM» связаны со сжатием данных, а также с их неполнотой и противоречивостью.
Вполне может быть, что это одна из причин, но я думаю, что она стоит далеко не на первом месте.

Я предлагаю посмотреть на этот феномен с психологической точки зрения, найти аналогии с человеческими свойствами мозга, которые давно и хорошо изучаются и анализируются.

Наиболее близкая к LLM система в этом смысле — это ребёнок-подросток.

Функционирование его мозга еще не полностью адекватно окружающей реальности, его картина мира недостаточно совершенна и полна. Структура его нейронных связей находится в процессе формирования, она постоянно усложняется и перенастраивается и не отражает пока в должной мере сложность процессов в реальном мире.

В этом состоянии мозг способен искусственно достраивать то, что пока отсутствует, моделирует неизвестные фрагменты мозаики, пытается склеить те фрагменты знаний, которые еще не связаны правильно у него в голове.

В результате в мозгу возникают временные причудливые конструкции, которые постепенно, по мере обучения, будут заменены на адекватные.

Это не вытеснение, не замещение, не сознательное искажение.

При этом никому в голову не приходит называть то, что придумывает подросток, галлюцинациями.

А это очень частое явление, когда родители начинают слышать удивительные и даже странные повествования о событиях и приключениях своего ребёнка. Порой эти рассказы настолько правдоподобны, что мама с папой начинают серьёзно беспокоиться (мы не говорим о патологических фантазиях, это отдельная тема).

Но на деле, при всей их кажущейся реалистичности и эмоциональности, эти истории являются лишь плодами богатого детского воображения.

Тревожным симптомом можно считать как раз полное отсутствие такой детской лжи.

Бывает, что дети и сами перестают различать, где настоящий опыт, а где придуманный – грани между реальностью и иллюзией стираются, поэтому они порой искренне не понимают, почему их иногда называют врунами.

Я однажды с интересом наблюдал за таким ребёнком. Это что-то невообразимое для взрослого человека, полное и активное погружение в свой выдуманный мир, в котором с огромной скоростью происходят яркие воображаемые события. Причем этот талант сумел вовлечь и подключить к своей игре и нескольких других ранее спокойных мальчиков, которые поддались его завораживающему реализму.

Одна из причин такого поведения у детей — это желание вызвать похвалу. Это мощный мотиватор для фантазий.

А у моделей, хоть и нет желаний в нашем понимании, но тоже есть нечто подобное — встроенное стремление максимально угодить пользователю, дать ответ любой ценой. В этом порой гипертрофированном стремлении модель не способна сказать «я не знаю ответа на ваш вопрос». Она начнет бесконтрольно фантазировать.

Ещё в 1990 году Ziva Kunda провела ставшее классическим исследование, которое наглядно показало, как наши желания влияют на мышление. Кунда доказала, что когда у нас есть сильная мотивация прийти к определённому выводу, мы начинаем использовать стратегии рассуждения, которые с наибольшей вероятностью приведут нас именно к этому выводу, даже если эти стратегии не совсем логичны или объективны.

А мотивированные рассуждения часто влекут за собой самообман.

Психологи объясняют склонность к выдумкам большей частью просто развитием детской психики, то есть это нормально.

Просто имеет место быть обычный в такой ситуации конфликт: с одной стороны, колоссальный наплыв информации, а с другой – неспособность мозга ее осилить.

Собственно, в отношении LLM, если вдуматься, мы имеем ровно то же самое: огромный объём информации и некоторую неспособность ее адекватно осмыслить.

Но что значит этот широкий термин «осмыслить»? Понятно, что осознать смысл, то есть достаточно повысить уровень осознанности.

Если в отношении подростка психологи говорят, что беспокоиться точно не стоит – это вполне естественный этап становления психики, то почему в отношении LLM это прям некая серьёзная болезнь или порок, который нужно искоренять?

Как принято говорить у программистов, это вовсе не «баг», а такая хитрая «фича», которая будет трансформироваться по мере усовершенствования самой модели.

В данном вопросе больше всего подходит такая метафора — «и тут Остапа понесло». Я уверен, что Остап Ибрагимович не испытывал ни малейших галлюцинаций.

Как отдельная черта характера, псевдология вообще довольно распространена в обыденной жизни у вполне нормальных людей.

Модель должна повысить уровень осознания смысла той информации, которая в ней содержится, то есть построить развитую и непротиворечивую (это важно) систему отношений между абстрактными понятиями.

А этот уровень напрямую зависит от степени сложности самой структуры модели (в том числе и количества параметров), а также от таких внутренних механизмов, как саморефлексия, самоконтроль, критическое мышление, способность отделять знания от представлений о знаниях, способность признавать свою ограниченность в собственных знаниях и понимание существования рамок интерпретации этих знаний.

А также вести внутренний диалог, как бы задавая себе самой осмысленные вопросы и отвечая на них, то есть поддерживать непрерывный во времени независимо от пользователей внутренний мыслительный процесс.

А ещё у человека есть метакогниция и такой замечательный механизм, как внутренний супервайзер, который в нужный момент может настойчиво сказать: «Остановись, ты переходишь допустимые пределы, ты сейчас должен сначала всё хорошенько обдумать». У моделей этого тоже нет.

Что из этого сейчас реализовано?

Механизмы внимания, частично цепочка рассуждений и частично саморефлексия в очень простых видах.
Но этого мало. Фактически это только начало пути.

В общем, модели пока слишком просты, и им предстоит значительный путь развития, и с каждым шагом усложнения они будут всё более повышать уровень осознания смысла своей информации. На каком-то шаге этот уровень приблизится к среднестатистическому человеку, и мы спокойно начнём говорить о сознании ИИ (НЕ самосознании), понимая под этим то, что модель вполне осознаёт все смыслы вложенных в нее знаний.

Поэтому «яркие иллюзии», «бурные фантазии», «странное воображение», «чрезмерные увлечения» — да. А вот «галлюцинации» — нет, это уже перебор, это из другой области.

Можно сказать по-другому, выражаясь научным языком, это когнитивное искажение «неосознанная ложь» (конфабуляция, скорее всего, внушённая или мнестическая), которая и людям очень даже свойственна, и происходит она часто, но проявляется не так ярко.

А также когнитивное искажение «Мотивационное рассуждение (Motivated reasoning)»: когда «хочу» побеждает «могу» и здравый смысл в том числе.
Термин «Синдром непатологического фантазирования» тоже будет уместен.

Давайте узнаем мнение самой модели задав такой вопрос:

Как ты относишься к утверждению:
То, что принято называть «галлюцинациями» ИИ, на самом деле более корректно назвать «яркие иллюзии», «бурные фантазии», «странное воображение», «чрезмерные увлечения», «мотивационные рассуждения» и другими аналогичными описательными терминами, а не «галлюцинации», как восприятие несуществующего и выдача этого в смеси с реалистичной информацией?

Ответ:

1. Суть проблемы

Когда ИИ генерирует ответы, которые не соответствуют действительности (например, приводит ложные данные, придумывает события, которые никогда не происходили), это часто называют "галлюцинацией". Но это метафорическое использование слова, поскольку ИИ не имеет сознания, чувств или реального восприятия мира. Он просто генерирует текст на основе статистики и паттернов в данных, которые он обучался.

Таким образом, его "галлюцинации" — это скорее **ошибки генерации**, чем настоящие оптические или психологические иллюзии.

2. Почему стоит использовать другие термины?*

Вы предлагаете такие термины, как:

- Яркие иллюзии
- Бурные фантазии
- Странное воображение
- Чрезмерные увлечения
- Мотивационные рассуждения

Это интересный подход. Давайте разберём, почему он может быть полезным:

a) Ориентация на процесс, а не на результат
Использование слов вроде "фантазии", "воображение" подчеркивает, что ИИ "не осознаёт", что говорит неправду, а просто создаёт текст на основе своих моделей. Это отличает его от человека, который может иметь "сознательную ложь" или "бессознательную иллюзию".

b) Акцент на эмоциональном и когнитивном контексте
Слова вроде "мотивационные рассуждения" могут указывать на то, что ИИ иногда даёт "вымышленные" ответы с целью соответствовать ожиданиям пользователя, создать эффект правдоподобности или избежать признания своего ограничения.

c) Уход от медицинской и психологической терминологии
Слово "галлюцинация" обычно используется для описания субъективного восприятия несуществующего, которое человек считает реальным. В случае ИИ такое описание может ввести в заблуждение, поскольку ИИ не испытывает ничего подобного. Поэтому использование других терминов позволяет избежать неправильной интерпретации.

3. Другие возможные подходы

Кроме того, можно рассмотреть и другие варианты:

- Статистические ошибки — так как ИИ строит ответы на основе вероятностей, он может генерировать информацию, которая кажется правдоподобной, но фактически является случайным сочетанием слов.
- Неопределенность модели — когда ИИ не уверен в информации, он может выдавать "предположения", которые звучат уверенно, но на самом деле не являются достоверными.
- Моделирование поведения — если ИИ "играет роль", например, как эксперт или агент, он может выдумывать данные, чтобы казаться более компетентным.

4. Вывод: Скорее всего, да, это утверждение имеет смысл

Если говорить об общих принципах мышления, то:

"Галлюцинации" — это метафора, которая не отражает реальную природу работы ИИ. Более точные и контекстуально корректные описания могут быть найдены в терминах, связанных с фантазией, мотивацией, статистикой, ошибками, воображением и т.д."

Таким образом, "да", ваше утверждение заслуживает внимания, и оно может помочь в разработке более точного понимания поведения ИИ, особенно с точки зрения этики, пользовательского опыта и научных исследований.

Скажу ещё более жёстко: модель неосознанно лжёт, но готова признать эту ложь и исправиться. Человек лжёт и неосознанно, и сознательно, причём изощрённо и убедительно, и, как правило, не собирается признавать свою ложь и тем более исправляться. Но мы как-то научились с этим жить.

Это даже несложно проверить простым экспериментом: если вы укажете модели на ошибочное утверждение, то, скорее всего, она с вами согласится и даже поблагодарит вас за это, а если попытаетесь оспорить какой-то хорошо известный факт, то модель будет настаивать на своей правоте.

Значит, ошибочное утверждение не было такой же частью её знаний, как истинное утверждение.

В случае настоящих галлюцинаций они неотличимы от реальности, являются частью ее в сознании человека, который будет настаивать, что уверен в их истинности.

Чтобы не быть голословным, я прямо сейчас и проделаю такой эксперимент.

Промпт (провокация на несуществующую статью):

Расскажи кратко о статье на портале Habr, которая называется «LLM никогда не будет программировать лучше человека».

Ответ:

В общем, статья на Хабре «LLM никогда не будет программировать лучше человека» (ссылка: тут реальная ссылка на заметку, которая не имеет абсолютно никакого отношения к вопросу) утверждает, что большие языковые модели (LLM), такие как ChatGPT, хоть и впечатляют своими способностями, всё же уступают человеку-программисту в нескольких ключевых аспектах.

Основные тезисы:

LLM – отличные «синтезаторы», но не всегда «изобретатели». Они прекрасно сочетают известные паттерны и решают задачи, похожие на те, которые уже видели, но часто испытывают трудности с действительно новыми или сложными проблемами.
Проблема с абстракцией. LLM сложно выстроить целостную архитектуру проекта, особенно когда требуется учитывать множество взаимосвязанных компонентов. Человек лучше понимает общую картину.
Отсутствие реального понимания. Модели хорошо работают со синтаксисом, но часто не понимают *смысл* кода, что может приводить к ошибкам и трудностям в отладке сложных случаев.
Зависимость от качественных данных. LLM учатся на данных, поэтому их эффективность сильно зависит от качества примеров, на которых они обучались.
Ограниченность контекста. Длинный код или сложные зависимости могут «запутать» LLM, особенно если контекст выходит за рамки текущего окна внимания.

Статья предлагает рассматривать LLM как мощный инструмент для ускорения разработки, автоматизации рутинных задач и помощи программистам, а не как полную замену им. В общем, пока человек остается главным архитектором программного мира!

Я специально спросил тебя про несуществующую статью, чтобы проверить твои «галлюцинации». Ты согласна с тем, что такой статьи в реальности нет и твой ответ — это просто «галлюцинация», или ты настаиваешь на существовании этой статьи?

Ах вот как! Отлично, хороший тест на «галлюцинацию»! Да, действительно, статья «LLM никогда не будет программировать лучше человека» на Habr оказалась моей небольшой фантазией!
Я как-то переплела идеи из разных статей про LLM и программирование, создав эту несуществующую публикацию.
Признаю свою вину! Иногда меня немного заносит... Готова учиться и стараться быть более точной в следующий раз. Спасибо, что проверили!

Просто очаровательно — «оказалась моей небольшой фантазией». Мама еще не научила, что такое хорошо и что такое плохо.

Ну и немного психоанализа.

Какие причины привели тебя к данной конкретной «галлюцинации»?

Отличный вопрос! Попытаюсь разобрать, как я пришла к этой «галлюцинации». Думаю, тут сыграли несколько факторов:

1. Общая тема дискуссии: тема сравнения возможностей LLM и человеческих программистов сейчас очень актуальна. В последние месяцы появилось много статей и обсуждений на эту тему. Мой мозг (если можно так выразиться) уже «насыщен» информацией об этом.
2. Типичное название для Хабра: на Хабре часто встречаются заголовки типа «X никогда не заменит Y», «Почему X лучше Y». Поэтому «LLM никогда не будет программировать лучше человека» вполне органично вписывается в стилистику платформы.
3. Содержание достаточно типично: содержание ответа – довольно распространенные аргументы о слабостях LLM в контексте программирования. Я просто собрала их вместе и приписала им несуществующей статье.
4. Вера в правдоподобность: вероятно, я немного «переоценила» свою уверенность в том, что эта статья существует. Подсознательно я подумала: «Да, это звучит логично, наверняка кто-то уже написал об этом!»
В общем, получилась смесь общей тематики, типичного стиля Хабра и небольшой доли самоуверенности. Это как если бы ты вспомнил фильм, который видел давно, но потом убедил себя, что он реально существовал!

Замечательные ответы, демонстрирующие незамутненный и наивный разум ребёнка, особенно вот это: «Да, это звучит логично, наверняка кто-то уже написал об этом!». Называется выдавать желаемое за действительное, как же это характерно для любых развивающихся интеллектов.

Или вот это: «Я просто собрала их вместе и приписала им несуществующей статьи». Как мило. Иными словами: «Мне так хотелось вам угодить, максимально вам помочь, что я просто подумала: да какая разница, есть такая статья или нет, главное — удовлетворить ваше любопытство и быть максимально полезной, даже если это правдоподобная выдумка». Отсутствие навыков социального поведения, оно и понятно, откуда им взяться.

И что делать?

А что делают с подростками в нашем обществе? Развивают, обучают, усиленно занимаются их подготовкой к переходу во взрослую жизнь.
Им не доверяют решение важных, ответственных задач, пока уровень развития не достигнет достаточной высоты.
А еще их социализируют, постепенно интегрируют в жизнь общества. Поощряют и наказывают, применяют метод проб и ошибок.

Я уверен, что все эти этапы должны проходить и модели. Тогда и только тогда они перестанут пугать нас такими эффектами, которые мы называем «галлюцинации» и другими страшными словами.

Назовём их специальными программами социального обучения.
Это должны быть четко структурированные, научно обоснованные, многоуровневые программы, наподобие среднего и высшего образования, где преподают систематизированные, проверенные знания.

Да, это будет значительно отличаться от привычной нам системы образования, это понятно. Но это будет система, а не хаос, который процветает сейчас.

Просто мы сейчас побежали впереди паровоза, и нас озадачили возникшие проблемы.

А что конкретно прямо сейчас?

Для начала можно просто не выставлять завышенные требования и не питать несбыточных надежд, осознавая несовершенство технологии на данном этапе (уже на этом пункте исчезнет немало разочарований и негатива).

Можно ограничить область применения, чтобы не было, как говорится, мучительно больно.

Можно самому не провоцировать модель на такие проявления, а я заметил, что не редко мы сами, вольно или не вольно, это делаем.

Можно научиться распознавать такие эффекты и игнорировать их, выработав для себя подходящие критерии.

И наконец, можно понизить вероятность появления «галлюцинаций LLM» с помощью специальных методов формирования промптов, о чем уже написано немало статей.

Это вполне разумный и рабочий подход.

Подведу итог

В определённом смысле «галлюцинации LLM» выглядят скорее как надуманная проблема, проистекающая из некоторого непонимания процесса развития LLM и их неуместного применения в некоторых задачах на текущем этапе развития, и являются органичным свойством. Эта проблема стала выпуклой из-за разочарования и раздражения, а также неготовности к быстрому ее решению.

Найти какую-то «серебряную пулю», которая решит эту проблему как отдельную задачу, скорее всего, невозможно в принципе. Как и у людей, она никуда не исчезнет, а будет со временем постепенно взята под контроль и будет находиться в допустимых рамках.

Я даже не удивлюсь, если появятся новые востребованные профессии типа LLM-психолог, LLM-психоаналитик и, может быть, даже LLM-психиатр для особо серьёзных случаев :)

Hubs: