Бенчмарки AGI никогда не будут объективными / Хабр

Умный Ганс — немецкий конь начала XX века, который давал правильные ответы на математические задачи, выстукивая ответ копытом. Он умел складывать, вычитать, делить и умножать, причём давал ответы на вопросы, заданные и в устной, и в письменной форме. На фото лошадь рядом с хозяином

Поскольку в 2025 году LLM прошли тест Тьюринга, теперь нужно придумать новые тесты на сильный ИИ. Но как оценить интеллект модели, если учёные сильно расходятся в оценке даже человека. Существует как минимум 70 определений интеллекта для сапиенсов.

И ещё эти многочисленные научные статьи на тему сознания у LLM. Тут вообще странная постановка вопроса. По опыту человека известно, что наиболее эффективно мыслительные процессы идут на подсознательном уровне, а вмешательство самосознания только мешает решению сложных проблем. На этот счёт вроде бы установлен научный консенсус.

Если у модели возникнет самосознание — этот баг быстро устранят, чтобы он не тормозил систему, как тормозит человека. Кажется, тут всё очевидно. Другое дело с бенчмарками AGI.

Много теорий интеллекта

Из статьи «Интеллект у людей и машин: совместная перспектива», Front. Psychol., 17.08.2023

Определение интеллекта — один из самых дискуссионных вопросов в когнитивной науке. На сегодняшний день существуют несколько конкурирующих теоретических моделей:

Модель общего фактора. Существует единый общий фактор интеллекта (g), который влияет на все когнитивные способности. Люди, которые хорошо справляются с одним типом тестов, обычно хорошо справляются и с другими.
Теория Кэттелла-Хорна-Кэрролла (CHC) — наиболее эмпирически подтверждённая теория. Она разбивает интеллект на три стратума: общий интеллект, широкие способности и узкие способности. Схематически показана на диаграмме:
Теория множественного интеллекта рассматривает интеллект в различных конкретных (в первую очередь сенсорных) условиях, а не как доминирование одной общей способности к чему-либо.
Теория множественного интеллекта
Триархическая теория Стернберга об интеллекте из трёх компонентов: аналитический, креативный и практический.

Ну и так далее...

Подводя итог, учёные даже близко не могут договориться, что такое интеллект у человека. То, что считается «интеллектуальным» в одной культуре, может не цениться в другой. Исследование 2023 года выявило около 70 различных определений интеллекта в научной литературе.

Так что мы измеряем у LLM?

Бенчмарки для сильного ИИ (AGI)

Вопрос бенчмарков на AGI возникает по той причине, что все лидеры отрасли (OpenAI, Anthropic, Google DeepMind) официально заявили, что ожидают разработку AGI «в течение нескольких лет».

AGI это интеллект человеческого уровня, важный этап на пути к Сверхинтеллекту, поскольку AGI-разработчики должны по идее автономно совершенствовать себя. Итак, как же определить, что мы приближаемся к AGI, какие бенчмарки заявляют такую функциональность?

Если взять самую авторитетную структуру когнитивных способностей человека CHC, то есть куча бенчмарков для узких решений задач из стратума I (чтение, понимание речи и др.). Формально LLM быстро превосходят человека по многим таким бенчмаркам:

LLM уже давно превзошли человека по многим когнитивным способностям из стратума I по СНС

Но это просто отдельные способности. И даже если все отдельные способности будут превзойдены, не факт, что модель сможет полностью заменить человека в интеллектуальной работе. И даже если она сможет его полностью заменить, всё равно найдутся критики, которые скажут, что это неполноценная замена, потому что она не может заменить лучших. И так далее, можно спорить до бесконечности.

В любом случае, напрямую сравнивать AGI с человеком всегда будет проблематично, потому что у нас разная архитектура. То есть мы в любом случае будем отличаться. Например, в вопросе «бесполезного» сознания (о нём ниже), биологических эмоций, гормональных эффектов.

Да, исследователи продолжают разрабатывать новые бенчмарки для AGI, но мы никогда не придём к консенсусу по поводу их объективности. Потому что оценить интеллект объективно сложно. Даже для человека понятие «умный» постоянно меняется. Например, до энциклопедий и интернета умным считался человек, знающий много фактов. Сейчас больше ценится умение быстро оперировать с информацией, а не само знание фактов.

Интересно, что разработчики LLM любят давать человеческие названия функциям программ: называют их «сон», «рассуждения» или «размышления», а некоторые даже нанимают психиатров для новых моделей. Вероятно, такое очеловечивание делается ради пиара.

Из самых авторитетных бенчмарков AGI на сегодняшний день:

Тест ARC от Франсуа Шолле (Abstraction and Reasoning Corpus) — сотни графических головоломок, где модель должна из демонстраций понять правило и найти решение.

Как показывает практика, разработчики LLM оптимизируют свои модели под существующие бенчмарки. С другой стороны, разработчики тестов выявляют интеллектуальные слабости LLM и разрабатывают тесты для них. Многие ищут, в чём человек справляется гораздо лучше модели, и разрабатывают простенькие тесты именно для этой задачи. В общем, процесс идёт.

Результаты моделей в тестовых наборах ARC-AGI-1 (2019) и ARC-AGI-2 (2025)

Недавно была представлена последняя версия набора головоломок ARC-AGI-3, которую агенты совсем не умеют решать:

General-Bench, новый бенчмарк, который использует пять входных модальностей — текст, изображения, видео, аудио, 3D — для тестирования ИИ на сотнях задач, требующих распознавания, рассуждений, креативности, этического суждения и других способностей как для понимания, так и для креатива. В идеале, AGI должен демонстрировать синергию, но пока ни один ИИ не может просто воспринять все пять модальностей.
Изучение виртуальных миров, куда ИИ запускают в самостоятельное плавание, как в игру Eve Online. Эти задачи требуют восприятия, исследования, долгосрочного планирования и взаимодействия.
Игры, финансовые и фондовые рынки, практические задачи из реальной жизни. Пока ни один ИИ не смог обыграть человека в покер или другим способом заработать миллион долларов в интернете.
Тест Tong предлагает ИИ случайные задачи, которые проверяют не только понимание, но и ценности. Например, «виртуальный человек» может неожиданно наткнуться на деньги на полу или плачущего ребёнка, что даёт исследователям возможность наблюдать за действиями ИИ. Эталоны теста проверяют способность ИИ исследовать и ставить собственные цели, соответствие человеческим ценностям и способность контролировать виртуальное или физическое тело. Более того, эталон должен быть способен генерировать бесконечное количество задач, включающих динамические физические и социальные взаимодействия.

Как и в случае с человеком, никакой тест никогда не сможет объективно оценить интеллект так, чтобы с этим согласились все. Интеллект ведь тоже эволюционирует. Например, последние модели LLM уже превосходят человека в понимании других людей и способностях к обману.

Эволюция интеллекта в эпоху агентов

Сейчас с распространением агентов стали популярными и идеи «роевого интеллекта», то есть масштабирование множества специализированных агентов вместо масштабирования одной большой модели. Тезис этой научной работы заключается в том, что искусственный интеллект масштабируется через взаимодействия, а не только через индивидуальные способности.

Идея тонкой настройки многоагентной системы ранее описывалась здесь. В принципе, она довольно простая.

Почти все передовые модели сейчас используют конструкции MoE (Mixture of Experts, смесь экспертов), когда разные входные данные направляются на разные подмножества параметров, создавая больше возможностей для масштабирования. Многоагентные системы применяют ту же идею на уровне агентов, каждый агент имеет свои собственные веса, которые нужно настраивать отдельно. Таким образом, если всё будет правильно скоординировано, количество агентов может стать следующим измерением масштабирования:

В описанной здесь модели вводится «тренер», который оценивает каждое действие агентов по мере выполнения, а не только конечный результат:

При оценке каждого действия обратная связь предоставляется на каждом этапе, а не только по итоговому результату

Тренер осознаёт контекст, оценивая каждого агента на основе его назначенной роли и полученных данных, а не только по фиксированным метрикам или конечным результатам. Подробнее об этой системе см. в техническом отчёте и репозитории.

Агенты передают файлы через общее рабочее пространство, создавая бумажный след, который тренер может изучить

«Мы вступаем в эпоху, где системы ИИ всё чаще включают в себя нескольких агентов, работающих вместе. Определение того, как обучать и оценивать эти системы, становится критически важным», — пишут исследователи.

«Бесполезное» сознание

Тема ненужности самосознания для интеллектуальной деятельности разумных существ хорошо освещалась в «Ложной слепоте» Уоттса. Сейчас почти научным консенсусом считается идея о том, что самосознание — побочный эффект работы мозга и случайный продукт эволюции, а так мозг вполне может функционировать без него.

В 2006 году Ал Дейкстергюйс и его коллеги опубликовали в Science знаменитое исследование, показавшее, что сознание на самом деле мешает решению сложных проблем.

Слева: процент участников, выбравших наиболее желаемую машину в зависимости от сложности решения и способа мышления (n от 18 до 22 в каждом условии). Справа: разница в отношении (по шкале от –25 до +25) к желаемой и нежелательной машине в зависимости от сложности решения и способа мышления (n = 12–14 в каждом условии). Погрешности представляют собой стандартную ошибку., из исследования Дейкстергюйса (Science, vol. 311, 17.2.2006) — Слева: процент участников, выбравших наиболее желаемый автомобиль в зависимости от сложности решения и способа мышления. Справа: разница в отношении к желаемому и нежелаемому автомобилю в зависимости от сложности решения и способа мышления, из исследования Дейкстергюйса (Science, vol. 311, 17.2.2006)

Как видим по примерам из исследования, чем сложнее задача, тем сильнее сознание мешает принятию правильного решения.

Слева: связь между способом мышления и удовлетворённостью выбором (по шкале от 1 до 7) для шести продуктов разной сложности. Справа: удовлетворённость после выбора покупателей IKEA и Bijenkorf в зависимости от способа мышления, оттуда же

Кому интересна методология исследования, оригинал статьи можно скачать через Sci-hub или по этой ссылке.

«Были и другие примеры, достаточное количество, чтобы заслужить обзорную статью в Discover, автор которой, Карл Циммер, написал: „Небольшое, но растущее число исследователей оспаривает часть наиболее радикальных аргументов, поддерживающих главенство внутреннего зомби“. Каким-то образом, стоило мне отвернуться, бесполезность самосознания сделалась главенствующим взглядом, а те, кто с ним спорил, — всего лишь „небольшим, но растущим“ числом исследователей, дерзкой шайкой бунтарей, идущих против общепризнанной мудрости», — Питер Уоттс, эссе в журнале Nowa Fantastyka, декабрь 2011 года, также продублировано в сборнике «Эта злая разумная опухоль».

То есть самосознание рассматривается современной наукой как некий паразит, живущий в мозге и мешающий ему работать в полную силу. Добавим, что в вышеупомянутой статье в Discover масса примеров на эту тему.

Насчёт «личности» человека тоже есть мнение, что это просто скопившийся за годы жизни контекст (воспоминания). Если контекст исчезнет вместе с воспоминаниями — сотрётся и личность. Тут очевидна аналогия между контекстом LLM и воспоминаниями человека. Ну это, конечно, шутка. На самом деле современная наука рассматривает личность как продукт многих взаимодействующих когнитивных процессов. Изменения в разных отделах мозга могут повлиять на аспекты личности:

Это становится очевидным, когда мы теряем даже один аспект наших когнитивных способностей, один аспект этого «общества»: например, мотивацию, восприятие или язык, способность обращать внимание, принимать правильные решения, сопереживать другим людям, планировать или мыслить наперёд. Тогда может стать очевидным, что мы уже не тот человек, которым были раньше, что мы потеряли часть себя — нашу личную идентичность.
Исследования людей с нарушениями работы мозга показывают, что «я» — наша личная идентичность — состоит из множества различных когнитивных процессов. Если вы теряете один из них, то теряете определённую способность.

Хотя точно известно, что повреждение именно лобных долей мозга разрушает личность больше, чем повреждения в других местах. Поэтому можно сказать, что основные аспекты личности «хранятся» именно там.

Передняя часть коры отвечает за высшие когнитивные функции, планирование, мотивацию, самоконтроль, принятие решений

«Создать Бога и попросить у него денег»

Возвращаясь к пузырю ИИ, совершенно непонятно, как эти фирмы окупят триллионные инвестиции. Кажется, что у них только один шанс — это создать Сверхинтеллект и спросить у него, как заработать. Это единственное, что спасёт ИИ-компании от банкротства, с такими-то долгами. А в этой сфере огромная конкуренция. Например, новый стартап легендарного Яна ЛеКуна под названием AMI Labs тоже в конечном итоге нацелен на создание Сверхинтеллекта, причём на архитектуре больших моделей мира (LWM), которая принципиально отличается от LLM:

LWM лучше «понимает» физический мир, чем LLM, источник

Ник Бостром в последней научной работе математически рассчитал, при каком допустимом риске можно запускать AGI. Допустимый рисквычисляется по простой формуле с учётом изменений в качестве жизнии и смертностиидо и после AGI, соответственно:

$x < 1 - \frac{q_0m_1}{q_1m_0}$

В базовом сценарии сейчас (без AGI и соответствующего радикального прорыва науки и медицины) средний срок дожития ( в таблице) у людей составляет примерно 40 лет, а после запуска станет примерно 1400 лет. В такой ситуации математически получается, что для ныне живущих людей выгодно запускать AGI прямо сейчас даже с риском глобальной катастрофы 97,1%. Под глобальной катастрофой $P_{doom}$ подразумевается немедленная смерть всех людей на планете.

Допустимый риск сильно снижается, если ожидаемая продолжительность жизни после AGI вырастет не так сильно, всего до 60 лет:

Сэм Альтман считает, что сингулярность будет «мягкой», но это вопрос спорный: другие с ним не согласны.

С одной стороны, LLM ещё далеки от сильного ИИ и демонстрации самосознания. С другой стороны, учёные уже показали, что самосознание только мешает человеческому интеллекту в решении сложных проблем. И отсутствие самосознания в AGI — это большое преимущество. Для эффективной работы системы важно следить, чтобы этот «глюк» не появился в программе, как он случайно появился у наших предков.

Ну а что касается бенчмарков AGI, то это динамичное поле, учёные будут находить изъяны моделей/агентов — и предлагать новые тесты. А те будут выпускать новые версии, обученные на новых бенчмарках.

Классификация уровней AGI, предложение DeepMind. Немного напоминает классификацию автомобильных автопилотов SAE от круиз-контроля до полной автономности

Ещё в 1970 году пионер машинного обучения Марвин Мински сказал в интервью Life, что «через три-восемь лет у нас будет машина с общим интеллектом среднего человека». По факту некоторые говорят, что AGI уже здесь. И всегда можно будет сказать, что его ещё нет. Универсального объективного бенчмарка нет и, наверное, никогда не будет.

Бенчмарки AGI никогда не будут объективными

Много теорий интеллекта

Бенчмарки для сильного ИИ (AGI)

Эволюция интеллекта в эпоху агентов

«Бесполезное» сознание

«Создать Бога и попросить у него денег»

Публикации

Информация