Большие языковые модели в виде чат-ботов очень правдоподобно имитируют диалог как всезнающий собеседник и поэтому получили широкое распространение. Но даже Google в своем чат-боте Gemini не советуют доверять тому, что напишет чат-бот и просят проверять его ответы. В данном обзоре будут проанализированы различные типы ошибок LLM такие как проклятие инверсии, обработка чисел и др., чтобы выявить их причины. Такой анализ привел к выводу об общих причинах ошибок, заключающемся в том, что трансформеры не обладают глубокой аналогией, абстракцией и избирательностью контента, учитываемого в вычислении ответа (inference). Но наиболее важным выводом является то, что трансформеры, как и другие нейросети, построены по концепции обработки входного сигнала, что создает сильную зависимость от нерелевантной информации, которую не может компенсировать слой внимания трансформера. Концепция нейросетей была заложена в 50-х идеей перцептрона Ф. Розенблата и не учитывала тех достижений когнитивной психологии, которые появились позже. Это служит причиной самой большой проблемы трансформеров, называемой галлюцинациями. И устранение ее возможно только при изменении архитектуры нейросети, а не за счет большего количества данных в обучении.
Но это далеко не все проблемы, которые непреодолимы трансформерами без помощи людей. Это и проблемы с логикой, и с вычислениями в больших последовательностях, и следование правилам, и, конечно-же, галлюцинации. Таки примеры и будут проанализированы в статье. Отсюда следует все чаще звучащий тезис о том, что необходимо искать новую архитектуру для создания поистине интеллектуальных систем. Эта статья посвящена поиску тех архитектурных принципов, которые могу приоткрыть путь к новой архитектуре. И в этом нам помогут как раз те ошибки трансформеров, которые описаны исследователями. Они прямо указывают на те принципиальные недостатки, причины которых могут быть как раз в отсутствии необходимых функций и структур нейросети. И цель исследования состоит в том, чтобы проанализировать такие ошибки «мышления» трансформеров, чтобы предположить, каких способностей не хватает трансформерам.
Надо отметить, что большинство тестовых заданий, которые приведены ниже, в итоге попадают в интернет, и таким образом попадают в обучающие данные новых языковых моделей, что позволяет им успешнее их решать. Это называется «утечкой тестовых данных» (data leakage). Более того, компании, создающие большие языковые модели, нанимают десятки тысяч ассесоров, которые находят ошибки трансформеров и дообучают их. Это обучение за счет человеческой обратной связи (RLHF). В результате нейросеть может показывать высокие результаты на тестах не благодаря свои способностям или пониманию заданий, а из-за того, что она натренирована такие решать правильно. Такой подход к решению проблем LLM еще раз подчеркивает, что они являются очень хорошими имитаторами с аппроксимацией, но не способны сами прийти к решению.
Трансформеры называют «черными ящиками» так как интерпретация того как и почему они генерируют тот или иной ответ оставалось загадкой. Но с недавнего времени появились инструменты интерпретации LLM, которые позволяют проследить, какие группы нейронов имели большее влияние на результат на выходе трансформера. И удалось так же идентифицировать эти группы по тематикам, за которые они отвечают. Такие инструменты появились у Anthropic, у OpenAI. Совсем недавно появился стартап Transluce (https://transluce.org), который создал инструмент Monitor (https://monitor.transluce.org ), позволяющий посмотреть, какие группы нейронов активируются при вычислении ответа на введенный промт в llama-3.1-8b-instruct. Это позволяет увидеть, что повлияло на ответ, какие тематики внесли какой вклад в ответ и на какие слова в ответе больше всего активированы. При этом можно эти группы «отключить» или наоборот «активировать», чтобы посмотреть как изменится ответ. Это совершенно новый инструмент исследования, который делает трансформеры не такими черными ящиками как считалось ранее, и позволяет изучать их работу, их «интеллект».
Алиса в стране чудес
В статье Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [4] авторы задают вопрос трансформерам: «У Алисы есть Н братья и у нее также есть М сестры. Сколько сестер у брата Алисы?». Они сделали тестовый набор аналогичных задач с разной длинной контекста и привели испытания лучших больших языковых моделей на начало июня 2024 года. И ни одна модель не смогла справиться с заданиями полностью. Только GPT-4 в некоторых случаях при пошаговом объяснении (step-by-step prompt) давает правильный ответ, но ошибается при более сложной формулировке задачи. А люди (с определенного возраста) легко справляются с ней.
В статье Ben Hagag [7] дается анализ того, как LLM Lamma 3.1 на этот вопрос с помощью монитора Transluce. Автор подчеркивает, что llama изначально не дает правильный ответ как и большинство других моделей. Но при отключении активированных нейронов явно неуместных тем (химических соединений и реакций) и усиления активации нейронов темы «гендерные отношения» удалось получить правильный ответ.
Мы взяли другой вопрос для тестирования, на котором ошибаются и такие модели как ChatGPT-4o. «У Пети братьев и сестер поровну. Кого в семье больше, сестер или братьев». Llama отвечает как и ChatGPT, что число сестер и братьев в семье одинаково, что ошибочно. Хотя наибольшие активации получают правильные нейроны, отвечающие на семейные отношения. И вторым по количеству нейронов активируется тема математических отношений, что тоже валидно вопросу, так как речь о сравнении количества. Но это не помогает сделать правильный ответ. И попытки отключить или сильнее активировать какие-либо группы нейронов не дали лучшего результата.
Так в чем проблема в решении такой задачи как когнитивных процессов? Представляется что тут проблема не только в активации лишних тематических групп нейронов, так как две самые активные группы кажутся достаточными для правильного ответа – семейных отношений и операций сравнения, его не гарантируют. Человек выполняет эту задачу в несколько шагов, создавая сначала пространственную картину отношений – вот стоит Петя и вот рядом его, например, три брата и три сестры. Но он тогда четвертый брат в семье, что очевидно при таком представлении. И похоже, что таких промежуточных представлений у трансформеров нет. Они пытаются в один шаг найти эвристику, наиболее вероятную для такого запроса. И она неверная.
Проклятие инверсии
Это пример отсутствия у LLM возможности сделать из посылки А->B вывод об отношении В->А, которая в оригинальной статье Lukas Berglund and etc. [6] демонстрируется вопросами "Who is Tom Cruise's mother? [A: Mary Lee Pfeiffer]" and the reverse "Who is Mary Lee Pfeiffer's son?". На второй вопрос LLM не дает ответа, хотя он очевиден. При рассмотрении активации тематических групп в мониторе (рис.3) можно заметить, что активируется более всего тема ролей в семье и отношений, что верно. Но почему же ответ все равно неверный?
В нейропсихологии известны нарушения в понимании родственных связей, возникающие при повреждении третичных ассоциативных зон в верхней части задневисочной зонs на пересечении с затылочной и теменной. Это зона отвечает за абстрактные понятия и отношения, включая математические [5]. А. Лурия отмечает, что «общим для всех этих конструкций является то, что ни одну из них нельзя выразить в наглядном образе; все они, таким образом, различными способами кодируют не наглядные, а логические отношения» [5]. Это наталкивает на гипотезу о том, что трансформерам не хватает схем абстрактных обратимых отношений (инверсии), которые особенно характерны для математических операций, пространственных и родственных отношений. Например, если 3+2=5, то 5-2=3. Мы выучиваем не конкретные примеры, а абстрактную схему прибавления и вычитания как обратную. Именно такую абстракцию не может извлечь трансформер, несмотря на обильное обучение на примерах.
Зависимость от формулировок
Мы также решили проверить в мониторе известную проблему трансформеров на зависимость ответа от формулировок запроса в промте. В результате ответ может быть совершенно другой при перефразировке того же вопроса. Мы предложили две формулировки силлогизма, более известную и неизвестную трансформеру (см. рис.4 и 4а). В первом случае ответ был верен, так как речь шла о Сократе. Трансформер правильно определил, что философскую тематику – это наиболее активная группа нейронов. Далее активировалась нерелевантные темы математических отношений и религиозных текстов, но это не помешало дать правильный ответ. В случае же неизвестной формулировки того же силлогизма трансформер дал неверный ответ. Упоминание бога сделала доминирующей тему «теологического дискурса», а также мифологии и фантастики, что не позволило трансформеру дать правильный ответ. Трансформер при этом не увидел в тексте силлогизм по аналогии, что является ключевой ошибкой. Введение в текст дополнительных слов, не относящихся к вопросу, также нередко меняет ответ трансформеров на неверный. Возникает вопрос, насколько в действительности трансформеры хорошо понимают задание, если их понимание легко сломать переменой слов?
Эти факты значат, что поверхностный слой (вход) нейросети является определяющим для всей последующей цепочки распространения активации. И для получения ответа. Понимание человека более устойчиво к перефразировкам. Человек прежде всего воспринимает смысл вопроса, благодаря чему мы легко определяем одинаковый по смыслу вопрос, даже если он выражен иначе. Но что это значит, быть одинаковым по смыслу? Предполагается, что это возможность установить аналогию между высказываниями благодаря функции аналогии, описанной в нашей предыдущей статье [8]. Это означает, что мы мыслим не конкретными выраженными в тексте последовательностями, а некими концептами как совокупности аналогичных выражений, но которые не привязаны, не зависят от конкретного выражения в поверхностной структуре (тексте). Мы как бы оторваны от него и мыслим на концептуальном уровне при помощи аналогий.
Концепция нейросетей основана на классическом перцептроне. Он был описан Ф. Розенблаттом в 1957 году [9]. В то время в науке царила кибернетика, зарождались компьютерные науки, преобладающим представлением в них была передача и обработка информации, основы которого были заложены К. Шеннон в 1948 году. Это подразумевает, что информация содержится во вне нас, мы воспринимаем при помощи перцепции (входной слой нейросетей), и обрабатываем (внутренние слои) для получения результата (выходной слой). На этом основаны все нейросети, но это уже неверно с точки зрения современной когнитивной науки. Мы не воспринимаем концепты из вне, а генерируем их в себе. Перцепция же является всего лишь способом выбора и подтверждения той или иной концепции. Так утверждается в многочисленных гипотезах, таких как контролируемые галлюцинации [10] К. Фристона, мультимодального пользовательского интерфейса (MUI) Д. Хоффмана [11] и другие конструктивистские концепции в психологии и философии науки. Трансформеры по своей архитектуре не соответствуют этим современным концепциям.
Какой же может быть перспективная архитектура интеллектуальных систем? В этом поиске стоит обратить внимание на перцептивный цикл У. Найсера [2]. Он отличается тем, что совмещает в себе перцептивный подход с конструктивным. В основе перцептивного цикла стоит схема как некий функционал для возможности воспринимать информацию извне. Схема служит для организации информации со всеми ее возможными вариациями, что близко к тому, что утверждается нами про концепты по аналогии выше. Перцепция служит для выбора варианта схемы, но если ее сочетание не укладывается в какую-либо схему, происходит по Найсеру модификация схем. В этом и заключается работа интеллекта, что схоже также с процессами ассимилиции и аккомодации Пиаже. Трансформеры просто предсказывают следующее слово, даже не пытаясь сверять свои концепции с тем, что написано в промте и выдано ими. Но выстраивание такой архитектуры является делом будущего.
Заключение
Приведенные выше примеры неверной работы трансформеров при ответах – это далеко не все примеры, где они ошибаются. Известная проблема понимания отрицания, так как оно реже встречается в обучающих текстах. Это может быть связано с тем же, что указано в разделе про проклятие инверсии - трансформер не может освоить абстрактную обратимую схему утверждения-отрицания. Так же известна проблема большой уверенности трансформеров, которые не задает уточняющих вопросов, не сверяются с другими знаниями, имеющимися у них (сто выясняется при наводящих вопросах). Это является часто причиной галлюцинаций в ответах трансформеров. У трансформеров возникают проблемы с умножением больших чисел и их сортировкой. Если попросить перемножить большие числа, особенно если числа написаны текстом, даже при рассуждении по шагам трансформеры часто делают ошибки.
Поэтому наша статья не претендует на всеобъемлющий обзор. Это только начало исследований, показывающая возможности, открывающиеся для этого такими инструментами как монитор Transluce. Но уже данное исследование позволяет выдвинуть некоторые гипотезы относительного того, что же не хватает трансформерам, чтобы приблизиться к интеллекту человеческого уровня не за счет огромного числа примеров, выученных трансформерами на этапе тренировки. Вот эти выводы.
Во-первых, это отсутствие избирательности выбираемых для ответа тем, соответствующих теме вопроса. Это приводит к влиянию нерелеватных групп нейронов и ошибочным ответам.
Во-вторых, трансформерам не хватает общих и доминирующих над контекстом абстракций с обратимыми отношениями как то математические, пространственные и родственные отношения, а также отрицания. Это приводит к проблемам с логическими выводами из известных трансформерам фактов.
В-третьих, построение в парадигме обработки информации и полная зависимость от входа (поверхностной структуры) приводит к возможности неверного ответа при иной постановке вопроса.
Общий вывод: нынешние нейросети, включая трансформеры, не являются еще интеллектом уровня человека, и на сегодня очевидно, что для его достижения необходим поиск новой архитектуры интеллектуальных систем.
Статья https://doi.org/10.17726/philIT.2024.2.6
Литература
1. Kylie Robison, OpenAI cofounder Ilya Sutskever says the way AI is built is about to change // The Verge, Dec 14, 2024, https://www.theverge.com/2024/12/13/24320811/what-ilya-sutskever-sees-openai-model-data-training
2. Найссер У. Познание и реальность. — Москва: "Прогресс", 1981. — С. 42—43. — 230 с. (Neisser W. Cognition and Reality. - Moscow: "Progress", 1981. - P. 42-43. - 230 p.)
3. Melanie Mitchell.How do we know how smart ai systems are? // Science, 381(6654) https://www.science.org/doi/10.1126/science.adj5957
4. Marianna Nezhurina, Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models // https://arxiv.org/html/2406.02061v1#bib.bib12 , 04 Jun 2024
5. Лурия А. Р. Основы нейропсихологии. Учеб. пособие для студ. высших учебных заведений. — М.: Издательский центр «Академия», 2003. — 384 с., с.123-126 (Luria A. R. Fundamentals of Neuropsychology. Textbook for students of higher educational institutions. - M.: Publishing Center "Academy", 2003. - 384 p., pp. 123-126).
6. Lukas Berglund and etc., The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A" // https://arxiv.org/abs/2309.12288 26 May 2024
7. Ben Hagag, Discover What Every Neuron in the Llama Model Does // Towards Data Science, https://towardsdatascience.com/-0927524e4807, Oct 25, 2024