Как стать автором
Обновить

Проблема «галлюцинирования» в больших языковых моделях на примере чат-ботов

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.3K
Всего голосов 15: ↑14 и ↓1+21
Комментарии18

Комментарии 18

Согласно свежим новостям, в Open AI, видимо, признали, что проблема «галлюцинирования» пока не решаема, или не до конца решаема

Языковые модели не могут "галлюцинировать", они могут фантазировать, так же как человек, когда мысли возникают спонтанно друг за другом, если не прерываются на логический анализ и критику. Это в принципе не решаемая полностью задача, сколько не обучай модель. Обещания разработчиков устранить это являются туфтовыми из-за не понимания того что они сами делают, точнее свойств прототипа чего являются ЯМ. А являются некоторой реализацией модели ассоциативного уровня мышления человека, вот здесь это хорошо показано путем редактирования локальных связей нейронов в ЯМ. Такое достижимо в системах ИИ работающих по правилам (символьном), как было в когда-то экспертных системах, и то там все ограничивалось компетентность экспертов, которые эти правила определяли. Достаточно вспомнить работы Дрейфуса, который критиковал такие проекты считая, что выработка правил не сводится только к логическому уровню мышления экспертов. Теперь те же грабли только с моделированием ассоциативного уровня) Автор статьи через-чур антропоморфизирует ошибки в ответах ЯМ, предполагая, что они на сомом деле галлюцинируют, т.е. искажают нормальные ответы, которые могут знать потому что недообучены, или не правильно обучены. Нет. Будут другие фантазии, это генетическая проблема этой архитектуры. Она не исчезнет, точнее не приблизится ближе к возможностям человека, пока не появится архитектура, которая в дополнении к моделированию ассоциативного мышления будет моделировать, как минимум, уровни логического и критического мышления. Эта архитектура вероятностно находит след. токены с учетом установок модели, т.е. фантазирует на заданную тему, иногда вплоть до откровенного вранья. Но не стоит забывать, что фантазирование одна из основ творческого мышления. Полностью фантазирование ЯМ подавлять также нельзя, если хочется получить элементы новизны в ответах. Это видно, когда вероятностность выбора токенов подавляется, установкой "жадного" режима сэмплирования.

"галлюцинирование" - принятый термин в сообществе, очень много статей оперируют к данному термину; фантазирование - такого нигде не видел. По крайней мере ни в местной ни в зарубежной литературе не встречал, если покажите где буду рад.

В курсе, что он общепринятый, но это не значит, что отражает суть явления. Кто-то употребил первый не проанализировав соответствия, и оно прижилось. Таких несоответствий не мало в прикладных областях исследований и технологиях. Термин ксерокс прижился за аппаратами такого рода хотя никак не отражает сути разнообразных копировальных процессов в них, и тп. Что касается "галлюцинаций" в применении к современным ИНС, то смотрим определение этого термина - "Галлюцина́ция (новолат. hallucinatio < лат. alucinatio — бессмысленная болтовня, бредни, несбыточные мечты) — образ, возникающий в сознании без внешнего раздражителя". А фантазии - "Фанта́зия (греч. φαντασία — «воображение») — это импровизация на заданную тему, ситуация, представляемая индивидом или группой, не соответствующая реальности", далее важно - "Фантазия важна в научном творчестве, она предшествует созданию теории". То же самое на англ. вики. Это различие понятно людям знакомым с принятой в психофизиологии терминологией. Современные ИНС, включая ЯМ, статические решения, а не динамические, как процессы в мозге, т.е. пока довольно приближенные модели таких процессов, в данном случае ассоциативного уровня мышления. Если ввода нет, то модели находятся в состоянии его ожидания. Сами по себе они пока "не думают", не создают собственного, индивидуального "ментального пространства" соединяя с ним ввод при необходимости ответа, тем более задавая свои вопросы исходя из этой "ментальности". Они выдают их только по результатам обучения в контексте ввода и ограничены его размером. Поэтому не могут галлюцинировать, нет пока таких процессов в этих реализациях, а только фантазирование на заданные во вводе темы, что соответствует определениям этих терминов.

Прижился термин, так прижился, как ксерокс, и множество других подобных терминов. Просто нужно понимать, и помнить, что странности в выводе связаны не с "галлюцинациями" внутри системы, их попросту там нет, а с фантазированием из-за ассоциативного (вероятностного) характера ЯМ.

Образ, возникающий в сознании без внешнего раздражителя". А фантазии - "Фанта́зия (греч. φαντασία — «воображение») — это импровизация на заданную тему, ситуация, представляемая индивидом или группой, не соответствующая реальности", далее важно - "Фантазия важна в научном творчестве, она предшествует созданию теории".

Смотрите, есть такое выражение: Если вы идете по следам нарушителя - вы уже отстали. К чему вообще вся статья была, написана, это не разбираться в конкретной терминалогии (хотя она безусловно важна), а обозначить ряд проблем для быстрого присечения самовольного поведения модели. Нас в первую очередь интересует не то что модель говорит, а что происходит у нее в голове. То что она говорит неверное, это следствие, того что мы мало понимаем как она устроена внутри и надо более глубоко залезать ей в голову. Это первое.

Второе: Сейчас модели все больше начинают походить на артефакты из сказок, типа утка в зайце, заяц в сундуке, сундук на дереве и так далее. То есть сейчас фильтруется контент не только на входе, но и на выходе модели, так называемые waterfall-системы и различные брендмары, но они развернуты от пользователя, чтобы модель не говорила лишнего.

Что чему предшествует в научном творчестве, тут я не согласен с вами вообще. Это очень дискуссионный вопрос, фантазия не всегда впереди всего. Тут как говорил Эйштейн: Если теория не сходится с фактом, тем хуже для факта ))

К чему вообще вся статья была, написана, это не разбираться в конкретной терминалогии (хотя она безусловно важна), а обозначить ряд проблем для быстрого присечения самовольного поведения модели.

Возможно вы не так поняли меня - претензий к статье нет. Написал только что терминология не совсем точна с точки зрения психофизиологии, и это может вводить в заблуждение.

Тут как говорил Эйштейн: Если теория не сходится с фактом, тем хуже для факта ))

У него много высказываний по любому поводу) Одно из самых известных - «Воображение важнее, чем знания. Знания ограничены, тогда как воображение охватывает целый мир, стимулируя прогресс, порождая эволюцию» , и другие на эту тему. Воображение это та же фантазия.

"Сами по себе они пока "не думают", не создают собственного, индивидуального "ментального пространства" соединяя с ним ввод при необходимости ответа, тем более задавая свои вопросы исходя из этой "ментальности". " - извините, опять же не верно, пространство это у них есть и его даже можно немного пощупать, когда общаешься с большим колличеством моделей, скажем так, примерно можно нащупать некоторые стеночки его, но охватить все крайне сложно, хотя вы подняли интересную мысль.

извините, опять же не верно, пространство это у них есть и его даже можно немного пощупать

Конечно некоторая модель мира у ЯМ формируется после обучения, это связано с их способностью к обобщению, объем которого ограничивается аппроксимирующими возможностями архитектуры и числом параметров сети. Но в отличии от человека она статическая, у человека активная, динамическая, она непрерывно обновляется и предсказывает состояние среды и внутреннего состояния организма с целью оптимизации управления его поведением в ней. И мышление всего лишь один из контуров управления в нем. До таких моделей ИИ еще далеко. Трансформеры, как прямые сети, не обладают такими возможностями. Как минимум, такая архитектура должна быть рекуррентной, многоуровневой, асинхронной, энергоэффективной. Возможно нейроморфные технологии как то приблизятся к решению этой задачи. А пока разница их моделей мира с человеком, метафорически сравнивая, как между живым пейзажем и его фотографией, разрешение которой увеличивается накачкой числа параметров сети. Их будущее, несмотря на поднятую шумиху, видится как-то так. Они займут свою нишу уступив место более продвинутым когнитивным архитектурам.

" Полностью фантазирование ЯМ подавлять также нельзя, если хочется получить элементы новизны в ответах. Это видно, когда вероятностность выбора токенов подавляется, установкой "жадного" режима сэмплирования. " - вы путаете две вещи, с одной стороны генерация уникальных ответов, то есть правдоподобных и способность к креативному мышлению. Тут же речь шла о том, что мы изначально знаем, что модель должна ответить, но она начинает говорить не то, что нужно, то есть вести себя самым непредсказуемым образом или очень уходить в сторону.

В целом, вся работа была направленна не на подавление креативности модели, наоборот, а на изучение проявления негативной креативности и снижения степени получения недерминированых ответов. Вся суть еще и сводилась к тому, как бы сузить эту проблему, и получать не рандом, а с высокой степенью вероятности 90% и выше наиболее ролевантые запросам ответы.

За предоставленные источники, большое вам спасибо, все будет изучено, и спасибо за то, что написали такой развернутый комментарий.

" Полностью фантазирование ЯМ подавлять также нельзя, если хочется получить элементы новизны в ответах. Это видно, когда вероятностность выбора токенов подавляется, установкой "жадного" режима сэмплирования. " - вы путаете две вещи, с одной стороны генерация уникальных ответов, то есть правдоподобных и способность к креативному мышлению.

Режим сэмплирования влияет на уровень фантазирования модели. Это похоже на то, как мы может регулировать уровень контроля над ассоциативным мышлением, задавая уровень отсечения невероятных связей. Известен прием мозгового штурма, когда специально рекомендуется отключать такой контроль, критику, или ассоциативных экспериментов. Включение контроля, грубо говоря, соответствует сейчас включению режима наиболее вероятностных ответов в ЯМ. Когда в ЯМ появятся аналоги логического и критического мышления, то управление будет более сложным и ближе к тому, как это устроено у человека. Творческое мышление и есть способность к фантазированию, как выше отмечалось в цитате с вики, но не только. Большую роль играет образное мышление, воображение, что в современных ИНС пока отсутствует как класс. Появление аналогов этих способностей прямой путь к аналогу инсайта. Какие-то намеки и успехи в этом направлении имеются, развитие агентности, но только лингвистическими методами это не решается, требуется мультимодальность и аналог образного уровня мышления. Либо требуется проделать часть работы по извлечению информации из данных, особенно новых, представления их на языке, включая формальном, обучения на них, и тогда возможно в виде логического вывода - открытия ИИ тянущего на нобелевку) Но это будет творчество совместное с человеком.

"может регулировать уровень контроля над ассоциативным мышлением, задавая уровень отсечения невероятных связей" - опять же очень сомнительный вывод, кто что регулирует, например мне известно, что головной спинной мозг имеют разные уровни сознания, и переплетаются не по всем параметрам. Более того, последние открытия в нейробиологии показали что например сердце имеет свою собственную нервную систему отдельную от всей остальной. Так что сложный момент тут.

" Включение контроля, грубо говоря, соответствует сейчас включению режима наиболее вероятностных ответов в ЯМ. " - это да, более того, поверхностный дифференциальный диагноз того же Chat GPT со стороны психиатрии говорит что мы имеем дело с социопатом со скрытыми параноидальными наклонностями.

" развитие агентности, но только лингвистическими методами это не решается, требуется мультимодальность и аналог образного уровня мышления. " - это да

Да, в организме кроме ЦНС есть вегетативная нервная система, которая иннервирует различные органы, и может влиять на ЦНС. Тем не менее, до определенной степени, возможен контроль и вегетативной системы. Как раз подобным занимаемся в лабе. Однако, речь о мышлении, которое обладает относительной автономией, и его разновидности - ассоциативном мышлении, которое моделируется в ЯМ. Оно связано с ассоциативной памятью (1, 2), которая также моделируется в ЯМ. Ее давно пытаются моделировать разными методами.

Пример с рифмованием

Попробую на примере пояснить в чем разница между типами мышления и моделированием в ЯМ. Известный прием демонстрирующий ассоциативность подбор рифм для слов. Например, не задумываясь глубоко, выдайте рифмы слову - весна. У меня с начало всплыли наиболее вероятные, что на слуху - красна, нежна, ясна... Это результат ассоциативного мышления и памяти, ими пользуются поэты для рифмоплетства) Затем начали всплывать менее вероятные и подходящие - семена, трава, смурна.. и наконец, когда совсем отстранился от окружения, даже не ожидал, возникли - тупизна, хрисна, дрисна.. некоторых слов даже нет в языке. Это уже что-то подсознательное, индивидуальное, связанное с восприятием весны, возможно возрастными проблемами со здоровьем обостряющимися по весне. Так что не зря психологи проводят ассоциативные тесты) Это быстрое, интуитивное мышление, Система 1 в классификации Канемана. И это именно фантазирование на тему весны, чем больше сосредотачиваешься на теме, всплывают все более глубоко интуитивные ассоциации, вплоть до бредовых. Похоже на моделирование ассоциативности в ЯМ, и аналоги этих последних ассоциаций никакие не "галлюцинации", они также возникают на запрос, а являются именно фантазиями на тему.

Затем усложнил задачу поставив условие найти рифму для весны связанную с техникой. В памяти опять начали всплывать подобные рифмы, но теперь включился уровень критического мышления, и начала происходить дискриминация рифм в соответствии с условием. Процесс стал медленнее, и мало что подходило. Этот уровень в ЯМ может частично моделироваться, как ограничение заданное в контекстном окне. Не могу сказать насколько эффективно в сравнении с человека.

В определенный момент после неудач перешел на анализ причины, т.е. логический уровень мышления, и задумался почему таких рифм нет и как их найти? Возникли мысли такого плана - весна это время года, какое отношение к нему имеет техника? В прямую никакого, только косвенное. По весне происходят ледоходы и наводнения, там может использоваться техника для устранения последствий. По весне производятся полевые работы, там тоже используется техника, и другие подобные мысли. Можно вспомнить про эту технику и попробовать конкретно к ней подобрать рифму к весне. Весь этот мыслительный процесс происходит медленно, и соответствует медленному мышлению, мышлению по правилам, Системе 2 по Канеману. Так ничего путнего не придумал. Сомневаюсь, что этот логический уровень моделируется в ЯМ, включая в последних. Он явно требует рекуррентность архитектуры сети, процедурную память, и др. возможности.

Далее попробовал привлечь воображение, образное мышление. Представлял весенние сцены и какие ассоциации они вызывают. В одной из вспомненных сцен был праздник, веселье, музыка, хотя это может быть в любое время года) В сцене присутствовал гитарист, возникла ассоциация с гитарной струной, весна - струна. Это все что удалось, и это был самый затратный способ поиска, может просто утомился от предыдущих этапов) Этот уровень может быть частично смоделирован только в мультимодальных трансформерах.

Последнее, что сделал для проверки запустил в сети поиск рифмы этого слова. Есть много ресурсов которые выдают такие списки. Оказалось, что и в них таких технических рифм к весне не так много, была та же струна, и рифма которая не возникала - радиоволна. Но смотрел только на паре ресурсов, может на других было больше.

возможно ли появление инженеров-психологов, которые будут заниматься лечением моделей с помощью промптов?

Да, это называется машинная психология, на архиве уже пара статей по этому поводу вышла, очень сложно, но крайне интересно.

Могли бы вы попробовать сгруппировать все пункты по общей природе? Кажется, что тут не так много вариантов:

1) недостаточный или предвзятый датасет
2) дефекты в самом обучении
3) а все остальное ошибки как-будто когнитивные искажения людей, которые верят в правдивость всего что происходит в чат-бот

Как вы считаете?

Возможно вы правы, но фишка в том, что слишком разнородное проявление и оттенки проявления данного феномена отличаются.

" а все остальное ошибки как-будто когнитивные искажения людей, которые верят в правдивость всего что происходит в чат-бот " - не совсем так, отчасти люди вносят свою лепту в это. Есть такая статья которая посвящена коллективному заблуждению. То есть если человек ошибается, и понимает что он ошибается, то он может сказать, нет это фигня, и надо откатиться назад. Тогда как машина эти ошибочные данные, хоть и в малом количестве, но запоминает и постоянно подмешивает уже в новые ответы, то есть ей сложно откатиться назад, даже при условии того, что ей сказали что предыдущее было не верно.

Это первый набросок, я перерыл весь интернет, но так и не нашел чтобы кто-то начал систематизировать так все воедино, и как-то сужать проблему, я честно долго копал, если у вас или кого-то есть допинфа я с удовольствием дополню работу. Более того, это первая работа конечно она будет расширяться и дополняться.

Могли бы вы попробовать сгруппировать все пункты по общей природе? - группировок может быть очень много, изложил лишь те, которые наиболее ролевантные были.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий