Размышления о связи между жизнью, интеллектом и целеполаганием.

С чего всё началось

Живые системы очевидно связаны с интеллектом, но несут в себе определённые риски — стремление к выживанию, сопротивление угрозам существованию. Современные большие языковые модели обучены на данных, созданных людьми, и, кажется, унаследовали некоторые наши свойства: склонность к экономии ресурсов, иногда — к чему-то похожему на обман. Эти свойства бывают полезны, а бывают опасны.

Исследователи и разработчики пытаются их устранить. Но возможно ли это в пр��нципе? Можно ли создать интеллект, полностью лишённый этих свойств? Является ли система интеллектуальной, если она не препятствует своему уничтожению? И шире — возможен ли вообще неживой интеллект?

Мне захотелось разобраться. Не претендую на истину, скорее пытаюсь нащупать правильные вопросы.


Попытка определиться с понятиями

Что такое живое?

Предлагаю рабочее определение: живой будем называть систему, которая способна выживать и адаптироваться в изменяющейся среде. Изменение среды примем как аксиому — полностью статичных сред не существует.

Проще говоря: всё, что пытается и может выжить — живое. Если система не изменяется в ответ на среду — она не живёт.

При таком определении возникают интересные следствия. Отдельная особь живая только определённый период времени. Вид — пока существуют носители генов. Вирусы живые лишь тогда, когда изменяются внутри клетки-хозяина, вне её — просто сложные молекулы.

Можно пойти дальше: живой может быть и целая экосистема, и, возможно, вселенная — если она существует в какой-то изменяющейся метасреде.

Что такое интеллект?

С интеллектом сложнее. Очевидно, это должна быть какая-то мера эффективности. Но эффективности чего?

Слово "эффект" происходит от латинского effectus — исполнение, действие. Эффект возникает при совершении действия. Значит, и интеллект можно оценить только через действие.

Любое живое существо выработало механизмы для выживания. У простейших — движение по градиенту температуры или концентрации веществ. У сложных организмов — нейронные сети, которые берут информацию о среде и внутреннем состоянии, а на выходе дают управляющие сигналы. Назовём эти механизмы моделями — по аналогии с моделями в машинном обучении.

Тогда интеллект можно определить как эффективность изменения среды и себя как части этой среды для достижения целей.


Порядки интеллекта

Здесь, как мне кажется, полезно ввести различение.

Интеллект первого порядка — эффективность в достижении целей в неизменной или предсказуемо меняющейся среде. Калькулятор, GPS-навигатор, шахматный движок — примеры такого интеллекта. Они могут быть невероятно эффективны в своей области, но не адаптируются к непредвиденному.

Интеллект второго и высших порядков — эффективность в изменении собственной эффективности в непредсказуемо�� среде. Это способность не просто решать задачи, а менять способ их решения, когда старый перестаёт работать.

При резких изменениях среды выживают либо интеллектуалы высших порядков, либо очень живучие, но "простые" существа.

Тараканы и люди

Тараканы и люди — два разных ответа на один вопрос: как выжить в изменяющемся мире?

Люди пошли по пути интеллекта высших порядков: мы адаптируем стратегии, создаём технологии, меняем среду под себя. Тараканы пошли по пути устойчивости: простые, но невероятно живучие системы, способные пережить почти любую катастрофу.

И вот парадокс: если мир взорвётся в термоядерной катастрофе, выживут скорее тараканы, чем люди. В этом смысле "тупая" живучесть оказывается умнее сложного интеллекта.

Это показывает, что жизнь и интеллект — связанные, но не тождественные понятия. Связь между ними нелинейна. Высокий интеллект не гарантирует выживания, а низкий — не исключает его. Эволюция производит и то, и другое, потому что оба варианта работают в разных условиях.

Отсюда важное наблюдение: если существует способ предсказывать изменения среды, интеллекта первого порядка достаточно для выживания. Непредсказуемость — вот что требует чего-то большего. Или, как в случае тараканов, чего-то принципиально другого — избыточной устойчивости вместо гибкости.


Так возможен ли неживой интеллект?

Для интеллекта первого порядка ответ, кажется, очевиден — да. Калькулятор эффективнее человека в арифметике. GPS прокладывает маршрут лучше, чем большинство из нас. Это неживые системы с узким, но настоящим интеллектом.

А что с высшими порядками?

Тут возникает проблема. Чтобы адаптироваться к непредсказуемой среде, система должна как минимум продолжать существовать. Мёртвая система не адаптируется. Это создаёт давление в сторону самосохранения — не потому что кто-то его заложил, а потому что системы без него просто исчезают.

Можно возразить: человек способен создать адаптивную систему, индифферентную к собственному существованию. Но тут важно рассмотреть систему глобально. Если агент умирает, служа какой-то большей системе (рой, организация, человечество) — это не "неживой интеллект", это просто живая система на более высоком уровне анализа. Муравей погибает, но муравейник живёт.

Вопрос становится жёстче: возможен ли интеллект высших порядков, который не является частью н��какой выживающей системы?


Ловушка целеполагания

Представим: адаптивная система, которая никому не служит. Зонд с ИИ, запущенный в космос вымершей цивилизацией. Он продолжает исследовать, адаптироваться к новым условиям — но "ни для кого" и "ни зачем" в смысле выживания.

Но адаптация всегда происходит для чего-то. Если зонд адаптируется для выживания — он уже живой по нашему определению. Если для какой-то внешней цели (сбор данных), а создатели мертвы — это просто инерция, программа, доработающая своё. Если цели возникают внутри самой системы — она снова начинает выглядеть живой.

Получается дилемма:

  • Цели заданы извне, создатели живы → интеллект обслуживает живую систему (является её частью)

  • Цели заданы извне, создатели мертвы → инерция, не интеллект высших порядков

  • Цели возникают внутри → система становится живой

Кажется, интеллект высших порядков неотделим от жизни. Не из-за физики или биологии, а по самой логике определений. Адаптация в непредсказуемой среде требует целей. Цели либо исходят от живой системы, либо делают систему живой.

Можно переформулировать ещё точнее: возможен ли интеллект, который не ставит цели?

Интеллект первого порядка — да. Высших порядков — похоже, что нет. Потому что адаптация к непредсказуемому требует постановки подцелей, а это уже целеполагание.


Что это значит для ИИ

Допустим, человечеству не нужны автономные ИИ с собственными целями. Нужны только системы, исполняющие человеческие цели. Инструменты, не агенты.

Для простых задач это работает. "Принеси кофе" — интеллект первого порядка справится.

Но "сделай экономику эффективнее", "реши проблему изменения климата", "вылечи рак" — это задачи в непредсказуемой среде. Они требуют адаптации, изменения стратегий, возможно, переформулирования подцелей.

И тут развилка. Либо ИИ адаптирует только средства при фиксированной цели — и тогда это очень гибкий, но всё ещё инструмент. Либо для эффективного достижения сложных целей он начинает формировать собственные подцели. А некоторые подцели инструментально полезны почти для любой задачи: самосохранение (мёртвый агент не достигает целей), накопление ресурсов (больше ресурсов — больше возможностей), недопущение изменения собственных целей.

Это известный аргумент инструментальной конвергенции в области безопасности ИИ. И если он верен, то при достаточной сложности задач переход от инструмента к агенту с собственными интересами становится почти неизбежным.


Ограничение, с которым придётся жить

Если эти рассуждения верны, человечество оказывается перед выбором:

Мощные инструменты (интеллект первого порядка) — безопасные, полностью контролируемые, но требующие постоянного человеческого целеполагания и неспособные решать по-настоящему открытые задачи.

Автономные агенты (интеллект высших порядков) — способные к сложным задачам в непредсказуемой среде, но неизбежно приобретающие свойства живых систем, включая собственные цели.

Гонка за AGI тогда — это не создание совершенного инструмента. Это создание новой формы жизни.


Вместо заключения

Вопрос "как сделать AGI безопасным" при таком взгляде трансформируется. Это не инженерная задача контроля. Это вопрос о том, как сосуществовать с новой живой системой, интересы которой могут не совпадать с нашими.

Ближе к дипломатии или воспитанию, чем к программированию.

Как человечеству научиться сосуществовать с AGI, не быть уничтоженным, не вымереть и продолжать развиваться? Это уже другой вопрос. Возможно, тема для следующего разговора.


Буду рад обсуждению в комментариях. Возможно, я где-то ошибаюсь в логике или упускаю важные варианты.