Введение

В последние годы наблюдается значительный рост общих возможностей искусственного интеллекта, однако, создание открытых систем ИИ, которые постоянно самосовершенствуются, остается недостижимым. 

В этой статье приводятся подтверждения того, что сейчас есть все необходимые компоненты для достижения открытости в ИИ-системах с точки зрения человеческого наблюдателя, а также доказывается, что такая открытость является важнейшим свойством сверхчеловеческого искусственного интеллекта (ASI).

Основная часть начинается с предоставления конкретного формального определения открытости через призму новизны и обучаемости. Затем иллюстрируется путь к достижению искусственного сверхчеловеческого интеллекта (ASI) через открытые системы, построенные на основе фундаментальных моделей, способных делать новые и значимые для человека открытия. В заключение рассматриваются вопросы безопасности, связанные с общими возможностями ИИ.

Определение открытости 

Формальное определение

С точки зрения наблюдателя, система является открытой тогда и только тогда, когда последовательность производимых ею артефактов является одновременно и новой, и обучаемой.

Более формально, система S производит последовательность артефактов Xt, индексируемых по времени t. Наблюдатель O обрабатывает новый артефакт XT, чтобы определить его предсказуемость, учитывая историю предыдущих артефактов X1:t. O обладает статистической моделью Xˆt, которая предсказывает произвольный будущий артефакт на основе наблюдений за артефактами, которые она “видела” до времени t. Наблюдатель оценивает качество предсказания на основе метрики потерь ℓ(Xˆt, XT), или сокращенно ℓ(t, T). Естественная реализация Xˆt — это алгоритм обучения.

Система демонстрирует новизну, если артефакты становятся все менее предсказуемыми относительно модели наблюдателя в любой фиксированный момент времени t, а именно:

Другими словами, всегда существует менее предсказуемый артефакт, который появится в будущем. 

Система является обучаемой, если при условии более длинной истории артефакты становятся более предсказуемыми, а именно:

Наконец, система является открытой с точки зрения наблюдателя O тогда и только тогда, когда она генерирует последовательности артефактов, которые одновременно являются новыми и обучаемыми. Аспект новизны обеспечивает наличие информационного прироста в системе, а обучаемость гарантирует, что этот информационный прирост имеет смысл и "интересен" наблюдателю.

Рассмотрим систему, которая проектирует различные самолеты: мышь (слева) может найти эти конструкции новыми, но не способна понять принципы, лежащие в их основе; для человека, изучающего аэрокосмическую инженерию (в середине), система предлагает и новизну, и потенциал для обучения, что делает ее открытой. Однако сверхразумный инопланетянин (справа), обладающий обширными знаниями в области аэрокосмической техники, возможно, не сочтет конструкцию новой, но все же сможет проанализировать и понять ее. Это подчеркивает, что непредсказуемость зависит от наблюдателя, и что одной лишь новизны или обучаемости недостаточно.

Определение наблюдателя

Выбор наблюдателя является важным параметром в рассматриваемом определении. Для исследований ИИ наиболее приоритетны человеческие наблюдатели, так как необходимо создавать артефакты, ценные как для отдельных людей, так и для общества в целом. Такое обоснование сужает пространство поиска и позволяет сосредоточиться на человеческих потребностях и интересах. 

При этом определение все же допускает произвольных наблюдателей по нескольким причинам:

Во-первых, это позволяет охватить не антропоцентричные системы, такие как биологическая эволюция. Во-вторых, это дает возможность рассуждать о системах, которые могут превзойти человеческие возможности. В-третьих, это позволяет определить, могут ли системы быть открытыми с точки зрения любого наблюдателя.

Наблюдатели имеют временной горизонт τ, который ограничивает их наблюдения за системой. Система считается бесконечно открытой, если она остается открытой на любом временном масштабе τ → ∞. Она считается конечной с временным горизонтом τ, если она открыта для t, T < τ

Рассмотрим, например, агента, обученного в симуляции с автоматической программой обучения по задачам. В принципе, человек может счесть наблюдения за поведением агента бесконечно открытыми, поскольку тот может приобретать способность решать все более разнообразные и удивительные задачи, однако на практике его новизна стабилизируется через примерно месяц обучения из-за ограничений в богатстве пространства задач и размера нейронной сети.

Суждения наблюдателя также зависят от его когнитивных способностей и широты области. Например, читая все более сложные статьи из Википедии, человек может считать систему открытой, пока не достигнет предела своей памяти. Правильное упорядочение статей будет представлять новую информацию, но как только память человека насыщается, он начинает забывать предыдущие статьи, что нарушает обучаемость. 

Теперь можно сделать несколько выводов. Во-первых, открытость человеческих технологий зависит от нашей способности сжимать знания в форму, которая может быть сохранена в коллективной памяти. Во-вторых, искусственный сверхчеловеческий интеллект может иметь менее строгие ограничения памяти, чем люди, и, следовательно, может считать себя открытым за пределами той точки, в которой люди оценивают его таковым. В-третьих, открытость зависит от широты области. В узких областях, таких как эллиптическая криптография, набор соответствующих статей будет намного меньше, так что человеческий наблюдатель найдет эту систему открытой только до тех пор, пока не поймет каждую статью, после чего новизна будет нарушена. Тем не менее, люди могут делать новые открытия в узких областях через эксперименты и рассуждения; накопление огромного статического хранилища данных не является конечной целью открытости.

Криптография на основе эллиптических кривых)))

Примеры открытых систем

В этом разделе затрагивается рассмотрение некоторых популярных систем, которые являются открытыми, но не общими, или общими, но не открытыми, по отношению к человеческому наблюдателю. 

Первая такая система – AlphaGo.

AlphaGo — это программа для игры в го, разработанная компанией DeepMind, подразделением Google, с использованием методов искусственного интеллекта и машинного обучения. Она стала известной благодаря тому, что в 2016 году обыграла одного из лучших игроков в го в мире, Ли Седоля. Это достижение стало важной вехой в области искусственного интеллекта, поскольку го считается одной из самых сложных настольных игр для компьютеров из-за огромного количества возможных ходов и стратегий.

В данном случае можно рассматривать в качестве артефактов последовательность стратегий, созданных AlphaGo в процессе обучения. После достаточного обучения AlphaGo производит стратегии, которые являются новыми для человеческих экспертов, в том смысле, что они делают ходы, которые имеют низкую вероятность для профессиональных игроков. 

Кроме того, люди могут улучшить свои шансы на победу против AlphaGo, обучаясь на основе его поведения. 

Однако AlphaGo продолжает открывать новые стратегии, которые могут победить даже тех людей, которые учились на предыдущих стратегиях AlphaGo. Таким образом, для человека AlphaGo является как новым, так и обучаемым. 

AlphaGo является примером открытой системы, которая достигает узкого сверхчеловеческого интеллекта, и это ограничивает ее полезность: самоигра такого рода не может сама по себе помочь нам открывать новые науки или технологии. Поиск новых и обучаемых артефактов осуществимым, но он ограничен правилами игры. 

Второй пример – AdA.

AdA — это крупномасштабный агент, который учится решать задачи в 3D-среде под названием XLand 2.0. В XLand 2.0 существует 25 миллиардов возможных вариантов задач, соответствующих различным топологиям мира и разнообразным возможным играм в каждом мире, которые приоритизируются по потенциалу обучения. 

Пример того, как Ada учится решать задачи в трехмерном пространстве 

Контрольные точки агента AdA в процессе обучения являются открытыми с точки зрения человеческого наблюдателя, который пытается предсказать, какие способности может демонстрировать агент. 

Человек постоянно наблюдает новые способности у агента. Более того, приоритизация вариантов задач обеспечивает интерпретируемый порядок накопления навыков у агента, делая это обучаемым для человека. 

AdA представляет собой более широкий класс открытых алгоритмов, основанных на неконтролируемом проектировании среды, которые создают автоматический учебный план среды в зоне ближайшего развития для обучения агента.

Будет ли AdA считаться открытой с точки зрения наблюдателя, если ее обучение не прекратится? Результаты исследований показывают, что через некоторое время новизна в действиях AdA все равно начинает снижаться. 

Кроме того, увеличение размера агента (например, его вычислительных ресурсов или сложностей алгоритмов) и числа задач позволят агенту лучше адаптироваться к разным средам. Однако, чтобы AdA продолжала оставаться открытой системой в долгосрочной перспективе, потребуется создать еще более сложную и разнообразную среду, а также сделать агента ещё более мощным. Этот процесс называется совместной эволюцией агента и среды, где и агент, и среда развиваются вместе.

Таким образом, для поддержания открытости системы AdA на длительный срок нужно постоянно усложнять как задачи, так и саму систему.

Третий пример открытой системы – POET

POET обучает популяцию агентов, каждый из которых связан с окружающей средой, эволюционирующей в ходе обучения. Эти парные артефакты агент-среда являются открытыми с точки зрения человеческого наблюдателя, стремящегося смоделировать особенности возникающих сред или, аналогично, навыки, которыми обладают связанные агенты. 

Примеры сред и их сопряженных агентов, созданные оригинальным POET:

Алгоритм качественного разнообразия (Quality Diversity, QD) используется в отношении сред, охотясь за сложными проблемами, которые приводят к различной производительности среди популяции. QD является примером более широкой категории открытых алгоритмов, а именно эволюционных алгоритмов.

Ключевым моментом является то, что POET периодически переносит агентов из одной среды в другую. Так агенты могут в конечном итоге решить невероятно сложные задачи, которые невозможно решить прямой оптимизацией. 

В результате обучения на миллиарды шагов в среде POET производит разнообразную популяцию высококвалифицированных специализированных агентов, которые могут решать новые задачи, созданные в процессе “коэволюции” с популяцией.

Новизна возникает благодаря оператору мутации в алгоритме QD, создающему новые и непредсказуемые среды. Обучаемость обеспечивается тем, что каждая мутация незначительна, поэтому прошлое развитие среды является хорошим ориентиром для её текущих характеристик. Основное ограничение для открытости POET — параметризация среды: в конечном итоге POET достигнет плато, когда агент сможет решать все возможные задачи.

Современные основные модели — это негативный пример; они не являются открытыми по нашему определению с точки зрения любого наблюдателя, который может смоделировать их обучающий набор данных. Основные модели обычно обучаются на фиксированных наборах данных. Если распределение этих данных обучаемо, то оно не может быть бесконечно новым. Основные модели могут казаться открытыми для человеческих наблюдателей, если область исследования достаточно широка, благодаря ограничениям памяти человеческого мозга. Однако при узкой фокусировке, например, на задачах, требующих планирования, становятся очевидны ограничения основной модели в генерировании новых, корректных решений.

Поскольку основные модели периодически переобучаются на новых данных, включая данные, сгенерированные их взаимодействием с людьми и реальным миром, можно утверждать, что распределение данных не является фиксированным. В некоторых кругах такой сдвиг распределения рассматривается как угроза "коллапса модели". 

Открытые основные модели

Улучшение современных моделей только за счет масштабирования пассивных данных скоро достигнет своего предела и не приведет к достижению ASI. Чтобы решить эту проблему есть несколько путей решений.

Обучение с подкреплением

Метод обучения с подкреплением (Reinforcement Learning, RL) находится на передовой линии достижения сверхчеловеческой производительности в узких областях. RL-агенты действуют целенаправленно, чтобы формировать свой поток опыта, как для накопления наград (эксплуатация), так и для изучения способов увеличения ожидаемой награды в будущем (исследование). 

*Обучение с подкреплением — это один из основных подходов в области машинного обучения, где агент учится принимать решения, взаимодействуя с окружающей средой. Основная идея заключается в том, что агент получает обратную связь в виде наград или наказаний за свои действия и на основе этого совершенствует свою стратегию. Агенты обучаются максимизировать суммарное ожидаемое значение наград, что называется целевой функцией или функцией вознаграждения. Это основная цель обучения с подкреплением).

Также существуют агенты, которые способны самостоятельно ставить себе цели и достигать их; при этом генерирование последовательности этих целей может само по себе быть открытым процессом, что приводит к созданию открытого опыта.

Voyager предоставляет ранний пример того, как самосовершенствование в стиле RL может быть построено на основе основных моделей без необходимости явных обновлений параметров или установленных алгоритмов RL. Вместо этого Voyager создает учебную программу, основанную на LLM, использует итеративные подсказки в качестве оператора улучшения и собирает проверенные навыки в библиотеку для иерархического повторного использования.

(В отличие от традиционных методов RL, где параметры модели обновляются с помощью градиентного спуска или других оптимизационных методов, Voyager использует LLM для управления процессом обучения и самосовершенствования. Аналогично с тем, что описывалось раньше, если агенту нужно научиться играть в стратегическую игру, Voyager может начать с создания простых задач, таких как движение агента по игровому полю или выполнение базовых действий. Со временем система генерирует более сложные задания, учитывая текущий прогресс агента. Например, следующим шагом может быть задача по захвату определенной территории или взаимодействие с другими агентами. Используя итеративные подсказки, Voyager помогает агенту корректировать свои действия и стратегию, предоставляя обратную связь на каждом этапе. Например, если агент совершает ошибку, система может предложить альтернативные действия или стратегии, которые помогут агенту улучшиться).

Таким образом, основная задача заключается в том, чтобы агент научился принимать правильные решения в сложных ситуациях. Чтобы достичь этого, агент должен исследовать различные варианты действий и учиться на основе полученных результатов. Проблема RL заключается в том, что нет точного ответа, как направить это исследование так, чтобы агент находил новые и полезные стратегии в сложных средах. 

Для этого используют разные методы: псевдо-награды, которые дают агенту дополнительные временные награды за исследование новых действий, модуляцию, которая изменяет среду или награды, чтобы сделать некоторые действия более привлекательными, и автоматические учебные планы, которые создают последовательность задач для постепенного улучшения навыков агента. 

Для обобщения можно использовать понятие прокси-наблюдателя, который находится внутри системы и активно направляет ее на создание нового и обучаемого контента для настоящего внешнего наблюдателя. Ранее для этого использовали простые метрики, но теперь применяют сложные модели, которые лучше понимают, что людям может быть интересно. Примеры с большими языковыми моделями, показывают, что они могут помогать агентам получать награды из текстов и составлять учебные планы задач на основе их интересности.

В то время как в RL рассматривается перспектива агента, взаимодействующего с окружающей средой от первого лица, другая перспектива сосредоточена на динамике нескольких агентов и дополнительной сложности, возникающей из всех способов, которыми различные агенты могут взаимодействовать друг с другом, адаптироваться друг к другу или учиться друг у друга. 

Наличие множества учащихся агентов создает источник нестационарности, так что оптимальная стратегия для каждого индивидуума будет изменяться со временем, потенциально бесконечным образом. Нестационарная динамика использовалась для достижения или превышения человеческого уровня производительности в играх, таких как StarCraft, DotA и Stratego. Есть первые свидетельства того, что многопользовательские системы могут помочь улучшить рассуждения в LLM через дебаты, хотя требуется гораздо больше исследований, прежде чем будет достигнута сверхчеловеческая способность.

Самосовершенствование

Чтобы достичь открытости, модель должна не только получать знания из предварительно собранной обратной связи, но и генерировать новые знания в виде гипотез, озарений или творческих результатов, выходящих за рамки курируемых человеком данных обучения. 

Цикл самосовершенствования должен позволять агенту активно заниматься задачами, которые расширяют границы его знаний и возможностей, например, через использование таких инструментов, как поисковые системы, симулированные среды, калькуляторы или интерпретаторы и взаимодействие с другими агентами. Это требует от модели наличия масштабируемого механизма для оценки собственной производительности, выявления областей для улучшения и соответствующей адаптации процесса обучения. 

Появляется все больше доказательств того, что базовые модели могут быть использованы для обратной связи вместо человека и значительно усиливать данные, генерируемые человеком. Например, модели обучены самостоятельно проводить критику и редактирование своих действий для тренировки безопасных помощников, а также направлять действия человеческих оценщиков. Также существует самокоррекция при использовании инструментов, самоинструкция для выполнения заданий, самоотладка в процессе генерации кода и самонаграждение за правильное выполнение инструкций.

Эти примеры демонстрируют потенциал базовых моделей не просто выполнять задачи, но и генерировать, анализировать и оптимизировать свои собственные действия и данные в бесконечном процессе самосовершенствования.

Генерация задач

Тесно связанной с RL и самосовершенствованием является проблема генерации задач, также известная как "проблема проблемы". Один из отличных подходов для создания открытых систем заключается в постоянной адаптации сложности задач к способностям агента, чтобы они оставались всегда сложными, но при этом обучаемыми. Прошлые примеры таких систем включают "установщиков-решателей" и неконтролируемое проектирование среды. 

С появлением фундаментальных моделей стало возможным использовать сам Интернет как среду через веб-API, предоставляя агентам невероятно богатый, постоянно растущий и актуальный для человека домен задач.

Эволюционные алгоритмы 

В искусственном интеллекте и машинном обучении эволюционные алгоритмы — это раздел эволюционных вычислений, в которых используются модели процессов естественного отбора (размножение, мутация, рекомбинация и отбор) и принципы природной эволюции для решения задач оптимизации.

Таким образом, эволюционные алгоритмы используются для создания систем, которые могут самостоятельно улучшаться и адаптироваться к новым задачам. 

LLM обучены на огромных наборах данных, включающих человеческие знания и предпочтения, что позволяет им делать осмысленные изменения в текстах или программах, что делает их полезными в роли операторов мутации и отбора. Эволюционные алгоритмы могут использовать LLM для создания различных вариантов текста и оценки их качества. Это помогает находить более креативные и полезные решения, чем те, которые могли бы предложить люди.

Эволюционные методы могут быть также использованы в области кода (генетическое программирование). В этом контексте фундаментальные модели могут генерировать различные программные решения, которые можно использовать для итеративного улучшения.

Например, Eureka эволюционирует код на основе функций вознаграждения для изучения сложных управляющих поведений. Аналогично, FunSearch эволюционирует программы, представляющие новые математические знания. Эти примеры сосредоточены на определенных областях, и остается открытой проблема масштабирования эволюции кода до более общего уровня.

Ответственное достижение ASI

Очевидно, что важно рассматривать не только способы улучшения уже имеющихся моделей для достижения ASI, но и разнообразные имеющиеся риски, связанные со “сверхчеловечностью” систем.

Создание ИИ и агентность 

Системы ИИ, позволяющие беспрепятственно создавать новые знания, могут привести к появлению новых мощных возможностей, однако без надлежащего контроля такие системы могут стать источником значительных рисков. Опасность особенно возрастает, когда открытые системы начинают действовать в реальной среде. На данный момент большинство передовых ИИ-систем работают в узких, смоделированных условиях, но по мере того, как ИИ обучается в более разнообразных симуляциях или развертывается в реальном мире, важно понимать и учитывать потенциальные опасности. 

Агентность (способность самостоятельно принимать решения и выполнять действия) открытых систем несёт в себе риски, такие как неправильная генерализация целей и манипуляция спецификациями. Открытый поиск можно рассматривать как агрессивную форму исследования, поэтому необходимо использование таких же подходов к снижению рисков исследования, как и в RL, например, безопасное исследование и регуляризация воздействия.

Понимание людьми открытых систем

Чтобы обеспечить осознанный контроль и руководство при управлении системой открытого типа, наблюдатели должны хотя бы частично понимать значение новых артефактов, которые производит система (однако это становится все более сложной задачей по мере роста сложности этих артефактов). Таким образом, такая система может стать небезопасной и непонятной для людей, теряя свою открытость. Поэтому любая открытая система должна сопровождать человеческих наблюдателей, помогая им понимать и интерпретировать её. Это важно как для обеспечения безопасности, так и для полезности системы.

Один из подходов для решения этой проблемы заключается в предпочтении дизайнов открытых систем, которые способствуют интерпретируемости и объяснимости, или чьей целью является обучение человеческих наблюдателей. Уже предпринимаются усилия по обучению систем, которые напрямую информируют пользователя о неявных знаниях. Можно стремиться к созданию систем, которые по крайней мере поддерживают осведомленный надзор. Этот подход может быть особенно эффективным, если дизайн системы с открытым концом автоматически облегчает понимание и контроль со стороны человеческих пользователей.

Человеческое руководство в создании открытых систем

Даже если мы предполагаем, что человеческие наблюдатели могут достаточно хорошо понимать поведение открытых систем, чтобы давать обоснованную обратную связь, возникает вопрос о том, как человек-проектировщик может эффективно направлять такую систему. Эта проблема выходит за рамки трудностей управления отдельными агентами RL, поскольку открытые системы не только часто не имеют четко определенных целей, которые можно было бы изменить, но и становятся все более непредсказуемыми по своей конструкции. 

Если бы открытые системы можно было сделать такими же управляемыми, как отдельные агенты RL, то работа по определению целей, сохраняющих управляемость, могла бы стать перспективным путем к созданию более управляемых открытых систем. 

Однако эффективное направление открытой системы к какой-либо цели при сохранении ее неограниченности является нерешенной проблемой. Эта проблема важна не только для безопасности, но и для полезности открытых систем.

В достаточно широких областях, таких как математика, белки в человеческом организме или поведение компьютеров, система с открытым концом может увлечься изучением малозначимых теорем, бесполезных белков или только определённых компьютерных приложений. Таким образом, создание механизмов, позволяющих направлять системы с открытым концом не только к безопасным, но и к интересным и полезным артефактам, является перспективным направлением для сотрудничества между исследователями безопасности и открытости.

Адаптация человеческого общества 

Существуют серьезные проблемы нетехнического характера, связанные с обеспечением того, чтобы общество могло понять, подготовиться и должным образом отреагировать на новые технологические возможности, возникающие в рамках открытых моделей.

Ведь влияние систем ИИ ощущается не только на индивидуальном уровне, но и на уровне коллективов, которые структурируют наше общество – сообществ, организаций, рынков, национальных государств и т.д. Поскольку артефакты, возникающие в результате применения открытых моделей, по определению будут казаться новыми, мы должны уделять особое внимание тому, как они могут навредить или принести пользу инфраструктуре общества.

Заключение

Достижение сверхчеловеческого искусственного интеллекта – труднодостижимая задача, особенно из-за возможной неоднозначной реакции со стороны общества. Даже если с технической точки зрения получится достичь открытости имеющихся фундаментальных моделей, особенно остро встанет тема заменяемости людей и человеческого труда на мировом рынке, тема гуманности (в целом) таких технологий и, конечно же, тема безопасности личных данных, что давно обсуждается в рамках даже обычного ИИ.

Несмотря на все трудности и опасения, хорошей новостью является информация о том, что на данный момент все-таки имеются все необходимые условия для достижения открытости систем ИИ и дальнейшего достижения ASI. Важно лишь пустить все теор.основы и планы в правильное русло, для достижения нужных результатов.

Также, с основным исследованием Вы можете ознакомиться по ссылке: https://arxiv.org/pdf/2406.04268

На этом всё! Спасибо за прочтение! Будем ждать Вас в комментариях :)