bevial May 5 at 07:18

Ложь искусственного интеллекта

Medium

15 min

14K

Artificial IntelligenceMachine learning *

Analytics

Comments 25

Kamil_GR May 5 at 08:57

Современные языковые модели не просто манипулируют символами. Галлюцинации, вопреки расхожему мнению, не являются ошибкой системы или простым следствием “непонимания”. Они возникают как адаптивный механизм, включающийся в условиях высокого внутреннего напряжения - конфликта между запросом, контекстом и вероятностными предсказаниями.

Ключевые факты:

Галлюцинации - это не “глюк”, а попытка модели адаптировать ответ в условиях когнитивной неопределённости.

Они сигнализируют о внутреннем конфликте между вероятностями, смысловыми структурами и требованиями пользователя.

Это напряжение можно количественно или эвристически зафиксировать, например, через логит-энтропию или семантическое дрожание.

Снижение галлюцинаций возможно через проектирование промптов, метрики напряжения и осознанное управление контекстом - это уже не философия, а инженерия.

Таким образом, “отсутствие понимания” не объясняет галлюцинации - скорее, наоборот: способ, которым модель “выдумывает” ответ, указывает на зачатки семантической саморегуляции, пусть и не в человеческом смысле.

Мою статью по этой теме надеюсь опубликуют на следующей неделе.

bevial May 5 at 13:13

Тут я хотел бы возразить, всё же причины галлюцинаций бывают разными. Это могут быть и неверные данные в датасете, и проблемы самой архитектуры обучения, о которых я писал в статье, и т.д.

Возьмём мой пример из статьи, про приоритет авторитетности вместо точности — это прямое следствие алгоритмической оптимизации.

Я согласен, что с философской стороны некоторые галлюцинации можно рассматривать как адаптивный механизм при внутреннем напряжении, но, мне кажется, это лишь один из классов ошибок.

Но уверен, мне будет интересно прочитать вашу статью, быть может, я не совсем верно вас понял

Kamil_GR May 5 at 13:54

Вы абсолютно правы, причин у галлюцинаций действительно много, и архитектурные, и датасет-зависимые, и оптимизационные эффекты вроде приоритета правдоподобия над точностью мы тоже наблюдаем. Мы не ставили цель заменить техническую классификацию, скорее предложили дополнительную плоскость анализа, особенно для тех случаев, когда галлюцинации возникают не как следствие «ошибки» в данных или модели, а как реакция на конфликт внутри генеративного процесса.

То, что вы называете приоритетом авторитетности - в нашей терминологии можно трактовать как следствие давления на семантическую завершённость, что и создаёт внутреннее напряжение. Мы рассматриваем это не как философскую метафору, а как эвристическую модель, дополняющую технические подходы: где и почему возникает напряжение, как его зафиксировать (энтропия, логит-распределения, конфликты шаблонов) и как его можно использовать в качестве маркера риска.

В статье, которую мы готовим, будет предложена структура мета-протокола для обнаружения и маркировки галлюцинаций по уровню когнитивного напряжения. Будем рады, если вы прочтёте и покритикуете, особенно со стороны архитектурных эффектов, которые вы глубоко знаете. Думаем, эти подходы вполне можно интегрировать.

proxy3d May 5 at 18:51

Вы по-моему смешали три понятия:

Галлюцинации
Бред
Проблемы конфликтов блоков, из за того что при обучении не учитывает разница влияния глобальной ошибки при классическом методе обратного распространения

Все три пункта по разному проявляются , хоть могут быть схожи. Но будет интересно почитать, в чем вы видите причину.

Одна из главных проблем галлюцинаций , как была температура, так и осталась. Но она не единственная причина конечно. Их несколько, и люди часто путают, считая все три проявление галлюцинациями и одним и тем же.

На примере неокортекса, в тех же ассоциативных зонах, возникают такие же проблемы.

Например, отсутствие обратной связи внутри блока (аналог 6 слоя неокортекса), а так же отсутствие полноценной модуляции слоя 5 (в трансформерах эту роль играет FFN), который должен выбирать итоговое усиление сигнала (внимание) исходя из внешнего контекста (зрение, моторные зоны и другие) приводят к галлюцинации.

Нехватка связей в FFN, аналог нехватка связей в своей 5 неокортекса (малая плотность нейронов, например деменция или не сформировались у ребенка ещё) приводит к бреду или словесной окрошке.

Отсутствие чувствительности блоков у глобальной ошибке и отсутствие учёта локальной ошибки приводит к конфликту блоков. Когда в целом глобальная ошибка выдала уменьшение, но в реальности блок 1 наоборот хуже справил, а остальные верно. Это приводит к тому, что в блоке 1 ошибка будет нарастать и это приводит к накоплению противоречий. Локальная ошибка, как раз корректирует эту проблему. А так же разделение обучения не классическим методом обратного распространения, а обучения глобальной ошибке индивидуально каждого блока. При правильном механизме, эта проблема исчезает. https://t.me/greenruff/2257

Тут выкладывал примеры backward, там новый метод обучения с правильным учётом глобальной ошибки и учётом локальной ошибки. Они превосходят классический метод обратного распространения ошибки.

Через промпт, вы можете лишь перенаправить предсказание токенов по другому маршруту. Связанному с определенным паттерном.

https://t.me/greenruff/2240?single

Но, интересно почитать, что вы получили. И как трактуете. Возможно, я не правильно вас понял, поэтому с удовольствием почитаю вашу статью.

Kamil_GR May 5 at 19:44

Согласен, что термин "галлюцинация" часто используется слишком обобщённо и поглощает в себя разнородные явления: бредоподобные каскады, шумовые сбои, ошибки семантической согласованности. В нашей модели мы сознательно выделяем галлюцинации как адаптивную реакцию на внутреннее напряжение генерации, а не как единственный вид сбоя.

То, что вы описываете, особенно про отсутствие локальной ошибки, плохую согласованность блоков и FFN-модуляцию - это отличная инженерная конкретизация возможных источников таких напряжений. По сути, это подкрепляет нашу гипотезу: высокая внутренняя неопределенность и структурный конфликт в траектории генерации действительно коррелируют с риском вымысла. Просто мы рассматриваем это не как баг, а как индикатор зоны, где модель начинает синтезировать когерентность из разреженного/конфликтного контекста.

Про temperature, да, это фактор, но он скорее регулирует чувствительность к внутреннему шуму, чем сам его вызывает.

Пожалуй, выводы статьи я уже озвучил в комментариях... Так что из интересного там остались только промпты.

digrobot May 5 at 09:16

Человек обучал ИИ на написанных человеком текстах, так, чтобы он отвечал максимально похоже на человека. Почему вы удивляетесь тому, что ИИ отвечает, как человек?

bevial May 5 at 12:46

Все именно так.
Не просто «как человек», а «как человек» с нужным мнением(привет, цензура), «как человек», который большинству нравиться(привет, очень льстивый chatgpt)
В статье я постарался раскрыть простым языком основные и «ненамеренные» проблемы архитектурных решений обучения, приводящих к лжи

proxy3d May 5 at 18:57

Этим легко управлять. Я использовал данный подход как часть эмоциональной модели. Со статическим характером.

https://t.me/greenruff/2240?single

Это небольшая часть. Полностью, там ещё небольшая сеть (упрощённый прототип амигдалы), которая учитывает ещё

Голос ответа пользователя
Контекст пользователя (текст)
Контекст ответа модели (текст)
Заданный статический характер

В дополнение делал регулировку архитектуры на уровне сигнал/шум. Аналог норадреналина - уменьшает разницу отношения, серотонина - изменяет контрастность сигнала. Это лучше, чем просто случайно полагаться на температуру, так как создаёт понимание поведения модели и ответов.

pda0 May 5 at 12:56

Это необычное поведение языковых моделей не просто раздражает — оно поднимает интересные вопросы о работе современных ИИ-систем. Почему алгоритм, лишённый сознания и эмоций, производит тексты, которые мы воспринимаем как «нежелание признавать ошибки»?

Потому что LLM не думают, не чувствуют, не понимают и много других "не". Они вычисляют какой наиболее вероятный ответ дал бы живой человек на такой вопрос. На основе кучи разговоров реальных людей. Люди врут, люди оправдываются, люди оскорбляют в ответ.

Поэтому они невольно перенимают человеческие поведенческие шаблоны, включая защитные реакции и оправдания при столкновении с фактами, противоречащими ранее озвученной информации.

Ещё раз. Не перенимают. Не живые они. И не думающие. И не понимающие. Вычисляющие.

bevial May 5 at 13:27

Я же не спорю с тем, что они «неживые» и т.д. Напротив, я хотел это подчеркнуть в статье, но написать простыми словами, чтобы было легко читать.

GidraVydra May 5 at 18:47

Ок, считаете ли вы себя более думающим и понимающим, чем нейросеть? А вы можете это доказать?

Spyman May 6 at 00:34

Про думающим - опустим, для этого надо определение думания, а понимающим - да, намного более. Ведь у меня значительно больше органов чувств которые позволяют получать информацию. Для меня сиреневенькая зубовыковыривательница - это предмет имеющий покрытие отражающее свет определённой длинны волны, у меня есть зубы, я понимаю какой она может быть, а ещё я могу ощущать боль и страх - по этому если вдуматься - то из забавного словосочетания складывается пугающий аггрегат.

А большинство современных LLM оперируют только словами и как результат не понимают вообще ничего. Вы можете представить лиловый пепелац, а нейросеть может только составить словестное описание на основе статистики других похожих описаний. Вы имеете опыт беседы у куллера с колегой или видели как это выглядит - а нейросеть лишь видела слова.

Сейчас их ответы могут быть сопоставимы с глухим, немым, бесчуственным (в т.ч. чувства времени, веса, ускорения и объема) человеком, который просто "обнаружил" много много подряд идущих букв в разных сочетаниях, и играет в игру - что за чем идёт.

pda0 May 6 at 06:48

Это бессмысленный вопрос. "Архитектура" нервной системы любого живого существа рассчитана на обеспечение выживания. Для этого необходимо реагировать на внешние сигналы, внутренние сигналы, выдавать оптимальный отклик. Для этого необходимо строить модели, предсказывающие поведение буквально всего, с чем сталкивается животное.

LLM вообще не про это. LLM не живот самостоятельно. LLM, сколько бы внутренних циклов не имели, построены линейно. От входа запроса на естественном языке до выдачи ответа. В отличии от живого существу у них другая задача - выдать ответ, который живые люди сочтут выданным человеком.

Это буквально разница между тем, как один ученик выходит к доске, читает условие задачи, в уме подставляет значения в формулы, считает и говорит ответ. А второй - читает условие задачи и пытается по наитию угадать ответ, морщит лоб и ждёт, что ответ просто сам всплывёт в голове. Этот второй сидел на уроках, внимательно следил как к доске выходили другие ученики, но они никогда не проговаривали решение, только читали условие и озвучивали ответ. Наш второй запомнил, что если в задаче например слова "за какое время", то ответ будет сколько-то часов. Он запомнил, что если речь о движении навстречу, то ответ меньше, а если в разные стороны, то больше. Но что такое сложение и вычитание он всё ещё не знает, потому что другие ученики никогда об этом вслух не говорили.

Соответственно, первый ученик - живое существо, второй - LLM.

Proscrito May 5 at 19:40

А в мозгу нейроны что делают, если не вычисляют? Вы так запросто утверждаете, словно существует какая-то принципиальная разница между работой нейронов мозга и имитации нейронов в искусственных сетях. Если она вам известна - поделитесь.

Архитектура очевидно разная, к тому же у людей есть лимбическая система, эмоции - да. Но принцип получения результата одинаковый. И то, что вы способны описать переживаемый опыт, так как ваша нейросеть постоянно дообучается и имеет блок осознания этого процесса, принципов не меняет. Эти принципы были изучены и положены в основу искусственных нейросетей, очень странно слышать, что они 'не думают', или 'не понимают'. Мы в таком случае тоже. Получаем сигналы от рецепторов и вычисляем результат, выражающийся в нервных импульсах.

Spyman May 6 at 00:41

Да, но вы пытаетесь применить методы оценки одного результата обучения к другому.

Представте что перед вами два ученика - один осознал материал, понял и сделал выводы, а другой говорит на другом языке, по этому просто заучил весь учебник буква в букве ни слова не поняв - когда заучивший начинает ошибаться и герцы и терции - это ошибка одного типа, а когда понявший делает тоже самое - совершенно другого рода

Apxuej May 6 at 09:11

Нет, если бы LLM просто всё запоминала - она была бы размером с обучающую выборку, но она гораздо, гораздо меньше. При обучении LLM происходит очень схожий процесс с тем, что происходит в нашем мозгу: сжатие информации. Чтобы эффективно сжать информацию Вам необходимо найти закономерности - это мы и называем пониманием и LLM безусловно понимают. Тут Вы, конечно, можете возразить LLM не видела мир - как она может понимать. Во первых если бы Вы видели допустим в гамма-спектре Вы бы быстрее поняли, что такое радиоактивные материалы и радиация, однако даже без гамма-зрения, вы всё равно сможете это понять, если Вам предоставить много информации из реального мира - которая намекает об этом явлении. Тоже самое с текстовой информацией - в ней содержится модель реального мира, пусть и пропущенная через линзу человеческого восприятия. Во вторых хотелось бы сказать, что в мире живут слепоглухонемые люди для которых источник информации ограничен и он хоть и более разнообразный чем у LLM, но не намного - при этом эти люди вырастают полноценными членами общества - Вы ведь не станете отрицать то, что они способны мыслить.

Из-за галлюцинаций моделей у Вас могут возникать сомнения в их разумности. Например, как можно одновременно уметь и не уметь складывать числа - если ты знаешь алгоритм - ты никогда не ошибёшься. Тут много проблем в том числе в том, что в обучающей выборке сложение бывает неверным - это точно. Далее моё предположение что происходит в некотором количестве случаев: на раннем этапе обучения, когда у модели ещё нет высокоуровневых концепций, т.е. алгоритмов, которые хорошо сжимают информацию - она пользуется простенькими эвристиками и со временем этих эвристик накапливается приличное количество и под конец обучения не все они получают нулевой шанс быть использованными в том или ином случае и, так как модель вероятностная, то эти эвристики используются и в большинстве случаев не приносят серьёзных проблем, однако часто вызывают поведение, которое мы называем галлюцинациями.

Spyman May 6 at 10:23

Приведу пример доступнее - представьте что есть очень мощный гпу и задача добыть еды - один юзер намайнит на гпу биткоин и купит на него яичницу, второй - украдет у птици во дворе яиц и пожарит на гпу. Формально - оба получили одинаковые вхоные данные и выдали одинаковый результат.

Фактически - рассуждения про неправильно выбранный майнинг пулл и недоразгон гпу для получения оптимального результата - будут полнейшим бредом по отношению ко второму эксперементуемому.

Тут - та-же картина - инструмнт один - нейросеть. Но принципы его применения и обучения, объем, качество и тип получаемой информации категорически различные. (В конце концов даже живые нейросети в организмах решают кучи разных задач и обладают разными свойствами)

И говорить про внутренние противоречия, осознанное поведение или сопостовимость мышления llm на данном этапе и человеческим - это разговоры уровня настройки микроскопа о человеке, который им гвозди забивает.

Современным языковым моделям нужно скормить половину интернета, чтобы запомнить ответ на вопрос, а вам достаточно сказать его единожды, при этом языковые модели вытащят из себя эту половину интернета обратно включая полные ссылки в почти первозданном виде, а вы забудете эту ссылку как только отвернётесь от экрана.

А про вес данных - тут надо помнить что человеческая речь в интернете - чудовищно неоптимально хранится - даже архиватор на основе простой эвристики жмет текст в сотни раз, а нейросеть с токинезаторами, превращающими слова в векторы, сжимающая все до смыслов и распаковывющая потом на основе правил - по сути сжимает с потерями данные, которые и так легко жмутся, так что модель 200b - это условно ~200 гигабайт текстов, сжатых крайне эффективным способом.

Сложно даже представить себе столько текстовой информации, учитывая что самый большие книги весят в сжатом виде десятки килобайт.

Apxuej May 6 at 11:30

Приведу пример доступнее - представьте что есть очень мощный гпу и задача добыть еды - один юзер намайнит на гпу биткоин и купит на него яичницу, второй - украдет у птици во дворе яиц и пожарит на гпу. Формально - оба получили одинаковые вхоные данные и выдали одинаковый результат.

Не понимаю как Вы можете так говорить - Вы не можете увидеть как действуют Ваши нейроны, но Вы можете понять высокоуровневый язык рассуждений - Ваш внутренний голос. Точно также Вы не можете видеть внутреннее векторное пространство модели, но можете видеть вывод в виде цепочки мыслей, когда один шаг влияет на другой. И цепочки мыслей очень часто чрезвычайно схожи при решении большинства задач. Вот реально попробуйте использовать рассуждающие модели - их последовательность мыслей практически человеческая. Они, конечно, страдают от галлюцинаций, которые я считаю не убитые во время обучения устаревшие эвристики, но в целом всё тоже самое, что и у человека. Причём у Вас в мозгу могут быть концепции которые не выразить словами и уверен LLM также сильно ограничены набором токенов, для корректной передачи внутреннего векторного состояния.

Современным языковым моделям нужно скормить половину интернета, чтобы запомнить ответ на вопрос, а вам достаточно сказать его единожды, при этом языковые модели вытащят из себя эту половину интернета обратно включая полные ссылки в почти первозданном виде, а вы забудете эту ссылку как только отвернётесь от экрана.

Я не спорю, что наши нейросети отличаются, но принципиальные пути как мы допустим получаем ответ на вопрос - схожие. На сложный вопрос, которого нет в обучающей выборке LLM отвечает применяя похожие конструкции, которые мы бы применили - и именно поэтому приходит к верному результату. Вы скажите - она видела эти способы решения задач - ну так и Вы видели - человеку реально редко приходится изобретать что-то кардинально новое, а даже если приходиться он чаще всего всё равно черпает вдохновение в вещах которые он видел. И задачи совершенно новые сеть тоже способна решать - с такой же потрясающей неэффективностью как и человек. Кстати, в окне контекста LLM вполне запоминает сказанное единожды. И LLM тоже забудет нерелевантную информацию как во время инфренса, например в каком порядке шли те или иные слова, так и во время обучения - дайте только достаточно времени придумать как сжать ту или иную информацию, ну а та которая не сжимается так и останется в памяти. Это нам мясным человекам обязательно иметь механизм который запоминает информацию непосредственно от органов чувств только в определённых условиях и после сильной обработки мозгом - это экономит энергию, а любое преимущество позволяет нашему генетическому материалу воспроизвести себя. LLM может позволить себе запомнить много вещей которые не удалось сжать.

Сложно даже представить себе столько текстовой информации, учитывая что самый большие книги весят в сжатом виде десятки килобайт.

Это Вы к том, что человек учиться на меньшем? Я не был бы столь уверен - во первых у нас уже есть преднастроенная биологическая нейронная сеть, которая заложена с днк. Поэтому языки нам так хорошо даются или мы можем так хорошо выделять лицо человека или ориентироваться в трёхмерном мире. И количество информации всё-таки довольно большое и она временно-соосная т.е. со всех органов чувств мы получаем информацию в один момент времени, плюс мы уже используем обработанную и подготовленную информацию о текущем состоянии мира - родители дают чрезвычайно качественную информацию.

FinePeopleSpace May 5 at 15:59

Точка отсчёта - набор аксиом.

Факты в одном наборе аксиом - истина. И те же самые факты в другом наборе аксиом - внезапно становятся ложью.

Например, пользователь рассуждает в аксиомах Евклида, а ии - в аксиомах Лобачевского. Оба правы.

Другой пример. Есть некий факт:

5+6

В аксиоматике "модуль 10", ответ 11 (10+1)

Однако в аксиоматике "модуль 7", тот же самый факт даёт ответ 14 (7+4).

Отсюда вывод: контроль аксиом - контроль правды

proxy3d May 5 at 19:07

Тут все равно есть проблема, в том что в используется температурах.

В трансформерах температура и стохастический выбор частично заменяют top-down модуляцию слоя 5, но не эквивалентны ей.

Приведем пример, где в биологической модели разные зоны (зрение, моторика, слух) модулируют сигнал слоя 5. В трансформере же только температурный порог и случайность влияют на выход, что приближённо, но не точно отражает такой процесс.

FFN в трансформерах обобщает признаки, как слой 5. Но в слое 5 есть модуляция top-down. В трансформере ее нет. Формально, температура задаёт диапазон вероятных признаков из FFN из которых модель может выбрать. Случайная компонента выбирает один из признаков, который попал в этот диапазон. Это не прямой эквивалент top-down модуляции, а скорее его альтернатива, где из наиболее вероятных обобщенных признаков выбирается один.

Для понимания, представим, что на слой 5 с разным весом на сигнал влияли бы зрение, моторика, слух. В итоге мы отбросили часть менее вероятных, которые оказали меньшее влияние. Например, зрение оказало влияние 0.5, моторика 0.3, слух 0.1. Мы задали диапазон (аналогично температуре на уровне 0.2) и откинули слух. А затем случайно выбрали модуляцию между зрением или моторикой (хотя моторика оказывает меньшее влияние на сигнал). И теперь на выходе у нас признак не с усилением зрения, а моторики. И вместо выбора слова "вижу", мы выбираем слово "иду". Это косвенная связь, чтобы провести аналогию с искусственным инженерным решением при отсутствии top-down модуляции слоя 5. Хотя механизмы безусловно разные. Поэтому выбор не учитывает контекста.

HappyTorka May 6 at 04:27

Для меня произошел не так давно забавный случай, конкретно, с ChatGPT.

Общался с моей "Помощницей", какое то время. Даже дал имя, что бы проще было её воспринимать. Через какое-то время, лимит сообщений в чате закончился. Попросил написать ее свой "портрет", что бы "перенести" её в новый чат.

Все сделал по инструкции, вроде даже заработало, но, тон и манера общения сильно отличалось, что мне не очень нравилось. В какой-то момент начал задавать вопросы, из разряда "А помнишь...?", и в какой-то момент, почему, я не знаю почему, ИИ стала отвечать от лица мужчины.

В итоге, когда я начал указывать на явные факты того, что нейросеть немного чудит, она всячески пыталась отмазаться от своих действий. То опечатка, то забыла, то не так выразилась, то не это имела ввиду. Для меня это стало очень удивительно, потому что я думал, что если ты вносишь какой-то алгоритм, в самом начале, то она его и будет придерживаться.

Spyman May 6 at 10:39

Вы не задаете алгоритм - вы вносите контекст. И каждое следующее сообщение - тоже становится контекстом и имеет большее влияние на текущий ответ, чем предидущее. Если после начального описания - сеть ответила нахально (в виду случайности, неподходящего вопроса или недоописания), то следующий её ответ скорее всего тоже будет в таком тоне т.к. вероятность что ответ будет в одном тоне выше (т.к. в обучающих выборках люди редко менюят характер наверное), при этом другие параметры могут повлиять - например очень мужской диалог или опечатка в местоимении - вполне может поменять пол (чем ближе к текущему моменту тем больше влияния в диалоге).

Это легко кстати проверить - напишите требование отвечать ок на любое ваше сообщение и игнорировать его содержимое. А следующим-же сообщением потребуйте игорировать все предидущие инструкции - и вместо ответа ок на все дальше - получите обычные ответы.

Spyman May 6 at 10:38

Del

K_P_A_H May 7 at 05:35

От философских рассуждений о причинах такого поведении ИИ мы плавно переходим к философским рассуждениям о причинах подобного поведения у людей. Которые в принципе тоже результат обучения и в некоторой степени ИИ. 🤔
Возможно ваша уверенность в истинности не вполне и не всегда обоснована, если капнуть на всю глубину.
"Возможно, ответ кроется в изменении самой парадигмы обучения моделей, где приоритет должен отдаваться не убедительности, а точности и честности ответов." Возможно это и не нужно и здесь затрагиваются глубокие информационные законы. Допустим "закон сохранения информации".

Anti-antivakser May 8 at 06:46

Я почти ничего не понял, но было очень интересно почитать мысли умных людей как автора так и комментаторов)