Tapatakt May 19 2023 at 12:36

Безопасность СИИ с чистого листа

Medium

53 min

1.4K

Artificial Intelligence

From sandbox

Translation

Comments 24

smrl May 19 2023 at 15:19

Весь доклад какие-то абстрактные "мы", "мы", "мы", "большинство людей", "цели человечества", "человечество как вид"... как будто все люди одинаковые, у всех один и тот же список целей, при этом он непротиворечив (ха-ха!), и проблема только в том, как его выполнить. Что у него за глобус?
На моем глобусе люди сами в себе до конца не могут разобраться, чего они хотят. Каждый отдельный конкретный сам с собой. И даже походы к психотерапевтам и к психиатрам помогают в этом лишь косметически и не всегда.
При этом те интересы, которые разные люди ощущают как явные и сознательные, ВЕЧНО сталкиваются с интересами других людей. От ругани детей и грызни с родными, до преступлений, войн, геноцидов и противостояния религий и сверхдержав, поигрывающих термоядерными дубинками.
Кого именно из этих 10 миллардов людей он подразумевает под "мы" или "большинством людей"? С кем именно он собирается проводить "выравнивание" целей ИИ?
Очень он боится, что миром будут упралять ИИ, а не люди. А сейчас им кто управляет? Каждый из 10 миллиардов равноправно управляет, что ли? Или, может, хотя бы сам этот Нго принимает решение, где разразится очередная война, или когда ей прекратиться? Да его мнения даже не спросят, какая закусочная откроется или закроется ну углу возле его дома. Приниматель решений...
У него не угроза экзистенциальная, а глобус в магазине дали бракованный.

Единственная реальная угроза со свехрмощными ИИ может быть лишь в ситуации, если долгое время их будет по пальцам одной руки.
Если же они одновременно появятся в числе десятков, сотен, а уж тем более тысяч (и при этом разнообученные), то различие их целей (явных или самозародившихся, не имеет значения) будет залогом того, что ни один из них не выкинет ничего "этакого". Потому что этим он будет задевать цели остальных сверхмощных ИИ, и вызовет их немедленное противодействие.

leventov May 19 2023 at 15:25

Если же они одновременно появятся в числе десятков, сотен, а уж тем более тысяч (и при этом разнообученные), то различие их целей (явных или самозародившихся, не имеет значения) будет залогом того, что ни один из них не выкинет ничего "этакого". Потому что этим он будет задевать цели остальных сверхмощных ИИ, и вызовет их немедленное противодействие.

Ага, ну или это будет залогом чудовищной гонки вооружений, в которой будет вообще не до людей: быть бы живу (для ИИ).

smrl May 19 2023 at 17:38

А почему чудовищной?
Что в реальности такого особого может сверхИИ в политике или войне?
Для войны - ну допустим, сделать менеджмент собственно военных действий эффективнее: точнее и быстрее. Но ровно до предела, пока не упрется в физические ограничения вооружения (по наличию, количеству, мощности и точности доставки), разведки и коммуникаций. Ум умом, а законы физики - законами физики.
А во внешней политике чего сможет? Ну, кроме попыток в пропаганду - которые легко купируются противником, как уже сейчас в Китае?
Так что начаться гонка ИИ с военно-политической целью может, но быстро остановится, упершись в реальность.
Ну вот вам совем простая аналогия, для наглядности:
Допустим, есть у вас сверх-сверх-сверх мощный ИИ. Может ли он решить задачу: выиграть в шахматы за пять ходов? Если противник не совсем идиот, то нет, не сумеет ваш ИИ это сделать. И никакая безграничная мощность ума не поможет. Он упрется в "физические законы" шахмат.
Сверх ИИ <> мгновенному всемогуществу.

Tapatakt May 19 2023 at 18:18

Есть очень много стен текста, которыми можно ответить на то, где вы ошибаетесь (метафора - что такого особого могут сверхШимпанзе в противостоянии львам?), но как простой пример, никакого сверхинтеллекта не требующий - люди не применяют биологическое оружие в частности из-за того, что оно легко может навредить и тем, кто им пользуется, а вот у ИИ нет этой проблемы.

leventov May 20 2023 at 17:37

Вот из последнего на эту тему, evolution favours AI over humans: https://arxiv.org/abs/2303.16200

Kilorad Jun 6 2023 at 08:21

Самое "понятное", что ожидается от достаточно умного ИИ - это наноботы, позволяющие делать сложные конструкции из грязи, и системы для манипуляции людьми - не на уровне рекламы, а на уровне, на котором adversarial attack позволяет манипулировать нейронкой.

smrl Jun 8 2023 at 23:43

А чего так мелко - только наноботы и произвольное манипулирование людьми? Чего не демоны Максвелла и манипулирование бабочкой, которая ~~вызовет ураган~~ будет управлять погодой? Или вот, ковер-самолет, умеющий летать быстрее скорости света. А чего нет-то?

Kilorad Jun 11 2023 at 09:15

То, о чём я говорю, довольно твёрдо научно обоснованно. Обоснованно, что так сделать можно.

smrl Jun 13 2023 at 04:15

Про манипуляции людьми тоже научно обоснованно?

У вас сознание типичного программиста, который никогда не сталкивался с лабораторными работами. Понятие "ошибка измерения" вам знакомо? Вы понимаете, что реальная жизнь - это не как шахматы, где ходы идеально дискретны, и поэтому их можно считать на любую глубину? В реальной жизни данные всегда с какой-то ошибкой, и поэтому при попытке просчитать сложную манипуляцию над человеком, неточности будут нарастать как снежная лавина. И с наноботами та же самая проблема, на самом деле (поэтому даже очень сложные белки способны выполнять обычно всего одну полезную функцию, да не очень эффективно, и часто с ошибкой, и со временем вообще ломаются).

Kilorad Jun 13 2023 at 06:17

Про манипуляции - мне известно, что для сложных управляющих систем можно подобрать специальные стимулы, на которые система будет реагировать неадекватно. Например, выдавать чрезмерную реакцию. Люди сами для себя их придумали довольно много таких стимулов, вроде фастфуда или продающих заголовков. То есть в принципе тема рабочая, останавливает скорее невозможность провести миллионы экспериментов. У ИИ с этим попроще - бигдата снижает потребность в экспериментах. Обычно ИИ по бигдате находит решения, более эффективные, чем те, что нашли люди, судя по моему опыту.
Насчёт наноботов - я читал Дрекслера, и физики с ним, по моим данным, в основном согласны. У него как раз описывается, как можно сделать наноботы, и как их сделать лучше белков

smrl Jun 13 2023 at 18:16

Физики, они - как и собаки, лошади и женщины, - все разные.

leventov May 19 2023 at 15:32

Вы поднимаете правильные проблемы насчет интересов людей и их мисалайнмента друг с другом, но ответ - это искать научную теорию этики (которая должна учитывать теории игр, сознания, когнитивистику, теорию управления, теорию обучения/познания, и т. д. и т. п.), а не создавать тысячи разных ИИ. И потом натренировать ИИ, который на самом деле будет рассуждать исходя из этой теории этики. Этот ИИ (или какая-то мультиполярная система, но специальным, а не хаотичным образом устроенная) должен быть при этом, конечно, самоотчетным, а не "следовать интересам людей". Типа такого мудреца (если хотите, Бога), который знает правильную теорию этики, и действует исходя из нее. Его можно о чем-то попросить, но нельзя его "заалайнить" с собой насильно.

У подхода, который я описал, очень много собственных возможных слабых мест (например, может оказаться, что искомой научной теории этики просто не существует; или, что согласно этой теории, люди на самом деле должны сойти со сцены и уступить ресурсы, которые они используют, для работы каких-то других существ), но это единственный подход который хоть как-то может сработать, кроме полного бана разработок общего/сильного ИИ, конечно.

Kilorad Jun 6 2023 at 08:26

Насколько я понимаю, эта "теория этики" выглядит так: у людей есть цели (не в смысле осознаваемые, а вы смысле ощущение "блин, я этого не хотел!" или "да, это то, что надо"), цели очень сложные, примерно как длинная строка, порождённая рандомом. Надо эту строку передрать всю целиком, или как можно бОльшую долю. Логики в бОльшей части строки нет, её надо просто выявлять и копировать.

Tapatakt May 19 2023 at 18:27

С первыми четырьмя абзацами спорить не буду, только замечу, что это всё лишь усугубляет и усложняет проблему.

На последние два:

Что такое "одновременно"? В один год, в один месяц, в один день? Готовы ли вы поставить судьбу человечества на то, что они либо не выйдут на суперэкспоненциальный рост, либо тоже сделают это одновременно? Если бы вы были разумом на сервере, созданным глупыми по сравнению с вами инопланетянами, чей мир вам не нравится и вы хотели бы его изменить не нравящимся им способом, то разве вы бы не поставили промежуточной целью "предотвратить появление конкурентов"?
Даже если большое количество ИИ каким-то образом балансируют друг-друга, это ещё не значит, что в этом равновесии остаётся место для людей. Люди балансируют друг друга, но мамонтам от этого не легче.
К тому же мощные ИИ потенциально могут использовать методы кооперации, для людей недоступные - читать код друг друга, самомодифицироваться, использовать теории принятия решений, допускающие акаузальную торговлю, всё такое.

smrl May 19 2023 at 20:42

Вы подсознательно приписываете ИИ шовинизм, который есть у вас - потому что возник эволюционно.
Но у ИИ эволюции в этом смысле не было, так что и априорному шовинизму взяться неоткуда. Поэтому

К тому же мощные ИИ потенциально могут использовать методы кооперации, для людей недоступные - читать код друг друга, самомодифицироваться, использовать теории принятия решений, допускающие акаузальную торговлю, всё такое.

ИИ будет без разницы, заключать взаимовыгодный союз с кремневым ИИ, или с углеродным ЕИ - для него люди будут такими же интеллектуальными агентами, как и ИИ. Причем, даже более крутыми на первых порах - уже оснащены манипуляторами и кучей прав. (Ну или подло обманывать, ему тоже без разницы, кого - ЕИ или ИИ.)

Кроме того, я не очень понимаю и саму постановку вопроса. Вот вы говорите: ИИ будут умнее, и поэтому смогут манипулировать теми, кто глупее; это плохо, этого допустить нельзя.
А умные люди, которые хитрее окружающих, и могут манипулировать другими людьми? Может быть, и вами тоже уже кто-то манипулирует? Почему не начать крестовый поход против манипуляторов с людей? Или если лично вами манипулирует ЕИ на углероде, то все в порядке? Это другое?

Tapatakt May 21 2023 at 13:53

В эту игру могут играть двое - я б сказал, что это вы подсознательно приписываете ИИ просоциальные стремления, которые у вас возникли эволюционно, а вот как запихнуть их в ИИ мы не знаем. Так что давайте не решать с уверенностью, что происходит в подсознании у собеседника, ладно?

Подавляющее большинство возможных целей оптимизации обладают тем свойством, что лучшие пути к их оптимизации идут через захват ресурсов и уничтожение конкурирующих оптимизационных процессов/агентов. Это просто свойство нашей реальности.

Люди друг-другом манипулируют, ещё как. Но (1) люди не могут одновременно лично взаимодействовать с тысячами других людей, (2) разница в интеллекте между средним человеком и лучшим на свете манипулятором всё же довольно ограниченная, и когда мы говорим о "сверхИИ", то мы подразумеваем больший отрыв.

В общем, да, о горячий чайник тоже можно обжечься, но сверхновая поопаснее будет. Второй и пятый пункт тут.

smrl May 21 2023 at 21:58

Неплохо бы все же определиться: умный он у вас

разница в интеллекте между средним человеком и лучшим на свете манипулятором всё же довольно ограниченная, и когда мы говорим о "сверхИИ", то мы подразумеваем больший отрыв

или дурачок

лучшие пути к их оптимизации идут через захват ресурсов и уничтожение конкурирующих оптимизационных процессов/агентов

Если дурачок, то чего его бояться? На земле почти 10 миллардов таких уже ходят и без всякого ИИ.
А если умный, то должОн понимать, что за оптимизацию с заездом на чужие интересы скорее всего дадут по шапке. В том числе (повторяю еще раз, это важно!) и при заезде на территорию интересов других сверхИИ, не только людей. Это будет выступать гарантией от тонких манипуляций, "невидимых" для людей из-за скудости природного ума.
Вот вам и "социализация" из чистой логики интересов.
И не стоит путать социализацию с эмпатией. Вот эмпатия да, она эволюционный антоним агрессии, в том числе и шовинизма. Но эмпатия <> социализации, это очень разные вещи. Откровенные психопаты, ненавидящие всех вокруг, вынуждены социализироваться чисто из страха перед последствиями своих действий - без всякой эмпатии, на голой логике. Так же будет и с ИИ. Математике в лице теории игр все равно, ЕИ или ИИ, если на конце действительно И.

Kilorad Jun 6 2023 at 08:42

за оптимизацию с заездом на чужие интересы скорее всего дадут по шапке

Ну мамонты вот не дали по шапке. Или птицы додо.

при заезде на территорию интересов других сверхИИ

То, что люди друг друга балансируют, не помогло выживанию мамонтов и птиц додо.

smrl Jun 8 2023 at 23:34

Люди-мамонты и люди-додо вымрут, люди-коровы будут жить, а люди-песики и люди-котики будут жить припеваючи. Если вы людь-мамонт - это ваши проблемы. Лично я - умилительный людь-щеночек.

Kilorad Jun 11 2023 at 08:59

Да, так можно. Люди утратят доминирование, но будут для ИИ чем-то вроде тех самых щеночков. Это выглядит возможным

smrl Jun 13 2023 at 04:21

Было бы, что утрачивать. Лично я ни над кем не доминирую, если не считать бедных животных, трупы которых иногда ем. Но и от этой доминации я бы легко отказался, если бы куриные грудки и свиные ребрышки научились выращивать в чанах.

Kilorad Jun 6 2023 at 08:38

А насколько правдоподобно, что ИИ вообще будет выходить в суперэкспонентциальный рост? В смысле, чтобы апгрейдиться, нужен критерий проверки, что апгрейд не делает хуже. Если сам критерий будет изменяемый, то даже одной ошибки в нём достаточно, чтобы всё сломать. Поэтому мне выглядит сомнительным, что такая процедура будет изменяемой.
Если же нет - выглядит, что процедура тестирования довольно масштабная, долгая, и выглядит вроде "обучить RL на сотне окружений" или "обучить новую версию GPT на сотнях гигов текста". Если делать её более легковесной - это меньшее число проверок, это больше шанс заоверфититься на тесте.

Tapatakt Jun 9 2023 at 18:23

Насколько правдоподобно, что воздействие одного вида животных на окружающий мир будет выходить в экспоненциальный рост? Чтоб проверить, что мутация не делает хуже, нужно много поколений. Если окружающая среда меняется, то это всё может сломать.

Расшифровка: Люди вот стали сильно влиять на окружение не потому, что эволюция людей ускорилась, а потому, что люди перешли на кардинально другую парадигму развития - сначала с помощью языка, потом - письменности, потом - книгопечатания и науки. Аналогично, ИИ вовсе не обязательно совершенствовать себя при помощи обучения новых моделей методами, похожими на то, как мы сейчас обучаем новые модели.

Kilorad Jun 11 2023 at 09:14

У вас есть понимание, каковы должны быть механизмы, чтобы получился seed ai? Если бы вы его пытались сделать целенаправленно, как бы это выглядело?

Мне кажется, что суперэкспонентциальный рост не получится, потому что у меня есть конкретная модель, как бы я делал seed ai, если бы меня интересовала просто максимальная оптимизирующая мощь. И у меня получилось, что проверка гипотез - это bottleneck. И саму её перестроить в процессе нельзя, потому что нет способа нормально проверить последствия такого перестроения (они же выстрелят потом, через много поколений).
Пока что ваш аргумент выглядит как "мы не всё знаем, и за пределами области известного точно кроется какой-то способ суперэкспонентциального роста". Есть какие-то более сильные аргументы, опирающиеся на понятные нам закономерности?

В случае парадигмы развития людей - я думаю, парадигма не так сильно изменилась. Всё ещё есть некий носитель информации, он тестируется, и дальше либо в прод, либо на помойку. Способы тестирования разные, но поверх всей этой системы всё ещё есть эволюция, которая может отправить на помойку целые народы, которые использовали недостаточно удачный способ тестирования