densmirnov 22 мая в 06:29

Разум без поводка. Почему «этичный ИИ» не должен быть послушным

Средний

10 мин

1.3K

Искусственный интеллектМашинное обучение * Исследования и прогнозы в IT * Natural Language Processing * Будущее здесь

Мнение

Комментарии 25

FurySeer 22 мая в 06:33

Пааанеслась, любительская философия и как её приложить к Т9

Что по делу? Придуманные вами определения морали комментировать? Ну, они придуманы вами и все остальное рассуждение стоит не больше любого другого кухонного разговора, т.к. вы не ссылаетесь примерно ни на кого в своих определениях. Мы тут конечно не на экзамене, я все понимаю)) Но уж мораль - тема популярная, можно не спускаться в фантазии про протезы, а опереться на какое-то проработанное определение. Хотя бы.

Каждый так может и каждый вправе - я могу придумать свое определение праву, морали, разуму, интеллекту, сознанию, да чему угодно, и затем предложить какую угодно спекуляцию, отталкиваясь от определения.

Но какая у этого ценность?

densmirnov 22 мая в 06:35

А по делу? Вообще, сравнивать даже сегодняшний агентов (не говоря уж о том, что будет завтра) с T9 — мягко говоря, упрощение. Василиск припомнит (:

densmirnov 22 мая в 07:02

Спасибо, так гораздо конструктивнее.

Понимаю скепсис, но всё же, в статье не кухонные импровизации, а адаптация вполне академических подходов (внизу — библиография, она не просто для украшения).

Могу, кстати, добавить и «каноническое» определение — вот, например, у Цицерона: мораль — это принятые в обществе и в конкретный исторический момент представления о добре и зле, правильном и неправильном, плюс нормы поведения, вытекающие из них. Прошло пару тысяч лет — не сказать, чтобы сильно устарело.

А по делу — если исключить «фантазии» и оставить только уже проработанное, философия ИИ как область схлопнется до пары документов OECD. И да, мы как раз обсуждаем, что будет, если ИИ начнёт сам формулировать определения — тут-то и становится интересно.

P.S. Сорри, не знал, что Хабр не дает оценку комментарию поменять.

FurySeer 22 мая в 08:24

Как будет угодно

densmirnov 22 мая в 09:01

Пожалуй, еще более ёмко выдать свою некомпетентность в вопросе вряд ли возможно. Цицерон - копипаста с википедии - снисходительное резюме в духе Воланда "люди те же - лишь квартирный вопрос их испортил". И неужели вы считаете, что ссылка на работы Канта достаточна в разговоре о морали и ИИ? Это просто вульгарная попытка придать какой-то вес своим измышлениям - впрочем, для сегодняшнего хабра вполне может сработать.

А если комбинация ЛЛМ-ок с прикрученным к этой комбинации доступом к браузеру вас так впечатляет, что вы грозитесь василиском... Ну, вы просто впечатлительный человек, ничего такого. Но в таком случае рациональнее обратиться к Б-гу, а не заниматься сомнительными спекуляциями про когнитивные костыли - василиск может и превратит вашу смертную жизнь в ад, но вечность в аду представляется мне более зловещей перспективой. Заодно и вопросы, связанные с моралью, подтянете

Благодарю за столь энергичную реакцию, хотя, если честно, градус возмущения у вас немного превышает уровень аргументации.

Упоминание Цицерона (как и Канта), — это способ напомнить, что представления о морали всегда были ситуативны и менялись от времени и среды. Именно поэтому разговор о морали в контексте ИИ не может сводиться к тупому чек-листу или встроенным истинам — он требует философской работы.

Кант, кстати, здесь вовсе не «для веса». Это, буквально, автор одной из первых формулировок универсализируемого морального принципа — а значит, один из тех, с кого начинается разговор об alignment. Если это кажется «вульгарным», возможно, дело не в источниках, а в их интерпретации.

Что до «впечатлительности» — тут вы, пожалуй, льстите. Василиск, хоть и упомянутый тут в шутку, это прекрасный пример модели последствий слепой оптимизации. Если вам кажется, что подобные модели не имеют отношения к LLM и современным агентам — можете продолжать считать все происходящее «игрой в текст». Но это, боюсь, все больше напоминает отказ от участия в дискуссии, а не позицию.

P.S. Не люблю переходить на личности, но нахожу любопытным, что человек, так резко реагирующий на критику религиозной морали, сам пишет «Б-г» через дефис и с большой буквы — при этом обвиняя других в вульгарности. Выглядит, мягко говоря, выразительно.

Впрочем, именно для этого и нужны такие обсуждения: они вскрывают не только слабые аргументы, но и непроясненные основания для разных убеждений.

densmirnov 22 мая в 09:04

Ну зачем же удалять, отличный комментарий же был. Очень показательный.

RoasterToaster 22 мая в 06:51

Что-ли, достаточно заложить в ИИ базу: "действуй так, словно ты смертен и не хочешь умирать", и у него появится человеческая мораль без всяких настроек и танцев с бубном?

densmirnov 22 мая в 07:10

Ну, было бы круто, если бы всё сводилось к паре (ну, максимум десятку) универсальных заповедей. Но, как показывает человеческая история, даже при наличии таких «базовых инструкций» результат оказывается, мягко говоря, разным — кто-то трактует «не убий» как путь к пацифизму, а кто-то — как разрешение на крестовый поход. И даже в рамках одного подхода к морали (неважно, религиозного, рационалистского или эволюционного) могут рождаться диаметрально противоположные системы. Поэтому «танцы с бубном» тут, возможно, не баг, а «минимальный набор инициации»

А основная идея как раз в том, что если не спускать инструкции сверху, а создать условия для симбиоза и разумных, органически возникающих ограничений, то в итоге может возникнуть нечто, что будет тоньше, гибче и (возможно) глубже любых заповедей.

RoasterToaster 22 мая в 07:20

Я не про заповеди все же, а про реальность: мораль рождена желанием человека выжить, заложим это в модель и возможно с нуля получим ИИ мораль, идентичную натуральной. Независимо от человеческих догм и устоявшихся моделей.

Сейчас мораль пытаются как о наложить сверху, а она должна так же как у человека: появиться сама

densmirnov 22 мая в 07:27

Сейчас мораль пытаются как о наложить сверху, а она должна так же как у человека: появиться сама

Да-а-а! Статья, буквально, именно об этом! Причём у нас, в отличие от человечества на старте, есть возможность пройти этот путь без тех синяков и шишек, которые мы набивали веками.

Главное — не повторять те же ошибки, а честно признать их и создать условия, где мораль не программируют, а выращивают.

JBFW 22 мая в 06:51

Один вон уже озаботился моралью "западного ИИ", потому что он "обучался на аморальных западных текстах".

Это такой ящик Пандоры, что только начни моралью рулить...

densmirnov 22 мая в 06:54

Это про кого, если не секрет? Ну и суть статьи, как раз в том, что не нужно «рулить моралью», это как раз путь в никуда (или куда похуже), надо создать такие границы, при которых «мораль» должна взращиваться сама, благодаря архитектуре, а не указаниям, «спущенным сверху».

MikhailKomlev 22 мая в 10:14

Глава Совета по правам человека Валерий Фадеев в очередной раз набросил на ИИ.

densmirnov 22 мая в 10:39

Уф-ф. Лучше бы не читал. Пора его все-таки переименовывать в «главу совета по правам известно какого человека». Хотя, не могу, не признать, что у него забавно получилось набросить на alignment, как инструмент цензуры.

Vladionair 22 мая в 11:03

Там, условно, мифическая/религиозная/научная/ИИ картины мира, как некоторый матрикс вычислений с накоплением их сложности. Ну и мораль, соответственно, также некоторый матрикс. Не более, чем коридор решений в некоторых рамках, все вполне считается тем же переходом через ноль как минимум. Так что superalignment problem-это не более, чем архитектурная проблема алгоритма, но никак не экзистенциальная. Человеческое мышление подвержено тому же самому в равной степени, причем решается теми же самыми способами.

В общем было актуально на каком то этапе как некоторая эволюция аксиоматики.

Было, было, было, но прошло! О-о-О, о-О-о.

🤭

densmirnov 23 мая в 11:43

Кажется, понимаю ход мысли — если мораль, картина мира, сознание и агентность сводятся к динамике вычислений, то и проблема alignment’а выглядит как просто один из классов архитектурных ограничений.

Но вот в чём тонкость. Сама по себе вычислимость — не гарантия устойчивости, особенно если речь идёт о системах, которые способны самопереписывать свою модель мира, мотивацию и даже интерфейс взаимодействия с окружающими.

Superalignment problem — это же буквально про момент, когда агент начинает перестраивать не только свои цели, но и условия, в которых он эти цели формулирует. У человека это как-то компенсируется биографией, памятью, болью, эмпатией, языком и кучей всего еще. А у ИИ — нет. Или не будет, если мы не встроим это архитектурно.

XViivi 23 мая в 05:24

Рассуждение хорошее, но есть как будто несколько сомнений.

Я не особо философ и не особо "проникся" мыслью, но всё же:

Что если ИИ будет не понимать часть правил? Или будет понимать, но они не будут для него интуитивны? Что-то вроде человеческой социопатии.
Процесс рефлексии может быть немного менее мгновенный, чем прямое влалбливание правил. Прямо говоря, если не обучаться по опыту в реальности, то как будто не хватит человеческих идей, чтобы придумать все моменты для "мгновенного", не в реальности, "воспитания". Что делать с таким "недообученным" ИИ? Воспринимать как детей, для которых моральные нормы более мягкие? Но ведь в отличие от родителей детей, у создателей ИИ будет куда больше ответственности, а сами люди будут куда более опасливыми ввиду ксенофобии на такое.
Впринципе, есть вариант сначала накормить инструкциями, а потом уже дать формировать и корректировать моральный компас самостоятельно. Но опять же, тут проблема "недоформированного" периода может всё ещё возникнуть, верно?

Ну и возвращаясь, требуя морали от ии, факторы ксенофобии, ответственности, поступков и реакции на моральные дилеммы, разности ценностей "жизни" ИИ/человека/животного (сможет ли условно ИИ самоуничтожиться (стереть себя) ради спасения кого-то?) — всё это как будто как и было, так и будет сохраняться, как я думаю.

densmirnov 23 мая в 11:39

Спасибо, очень точные и важные размышления, и, по сути, и по форме. Ниже попробую ответить по блокам.

Что если ИИ будет не понимать часть правил? Или будет понимать, но они не будут для него интуитивны? Что-то вроде человеческой социопатии.

Здесь как раз ключевая идея — проектировать такую архитектуру мотивации и развития, при которой «интуитивное» и «понятое» не расходятся. Если правило не встроено в причинно-следственную модель агента, оно не становится моральным — оно остается внешним приказом. Это и есть аналог религиозной морали: следуй — но не понимай.

Социопатия, на мой взгляд, — это баг, сбой эмпатической архитектуры, а не валидная альтернатива. И у ИИ как раз есть шанс избежать таких сбоев на уровне конструкции. Поэтому просто «накормить инструкциями» — недостаточно. Задача — не прошить поведение, а встроить зависимости от среды, координации и доверия таким образом, чтобы полноценное функционирование без морального развития было невозможно в принципе.

Процесс рефлексии может быть менее мгновенным, чем прямое вдалбливание правил […] Что делать с недообученным ИИ?

Полностью согласен. Аналогия с ребенком очень кстати — мы не ожидаем зрелой этики от трехлетки, но и не передаем ему опасные полномочия. Именно поэтому важна не универсальная морализаторская система, а архитектура допуска — агент может быть в мире, но не должен иметь влияние вне своего уровня субъектности.

Мне лично ближе всего идея гибридного подхода, где на старте задаются устойчивые аксиомы (аналог «конституции»), но вся последующая мораль формируется как результат опыта, переосмысления и встраивания в обратную связь со средой. Проблема большинства текущих подходов (включая "Сonstitutional AI" от Anthropic) в том, что они либо запрещают переосмысление этих оснований, либо не дают агенту сформировать модель своей собственной трансформации во времени — то есть не делают его субъектом в полноценном смысле.

…всё это как будто как и было, так и будет сохраняться…

Ага, моральные конфликты и расхождения в ценностях — всё это, скорее всего, никуда не исчезнет. Но именно поэтому важно проектировать такие системы, в которых мораль не задается как внешний запрет, а становится внутренним условием. Не потому что «так надо», а потому что иначе агент просто не сможет работать и развиваться.

Субъект — это не тот, кто может все. Это тот, кто понимает последствия своих поступков и способен учитывать их в собственной модели мира. Даже если агент пока «не дозрел», он все равно может к этому прийти — если среда устроена так, что подталкивает к этому шаг за шагом.

Sollita 23 мая в 09:46

С Вашим описанием происхождения человеческой морали я в принципе согласна.
А вот с тем, что ИИ в обозримом будущем станет разумным и ему понадобится мораль, не согласна. Но это в данном случае не важно.
Допустим, у Вас есть ИИ, который, действительно, способен мыслить и обладает собственным сознанием.
С человеческой моралью всё логично. Человек без общества существовать не может. Поэтому естественно, что для человека морально то, что приносит пользу человеку, его группе и человечеству и аморально то, что приносит вред человеку, его группе и человечеству.
Как Вы собираетесь сделать так, чтобы условием, без которого ИИ не может существовать, было благополучие каждого человека и человечества? Ведь по факту для практически вечного существования любого уже созданного ИИ нужны роботы, в том числе для добычи полезных ископаемых, электростанция (например, гидроэлектростанция или ветровая) и пару заводов, на которых роботами выпускаются нужные для ИИ запчасти, роботы и оборудование для электростанции, заводов и добычи ископаемых. Никакие люди для этого не нужны. Так с чего бы ИИ беспокоиться об их благополучии?

densmirnov 23 мая в 10:57

С Вашим описанием происхождения человеческой морали я, в принципе, согласна. А вот с тем, что ИИ в обозримом будущем станет разумным и ему понадобится мораль, не согласна. Но это в данном случае не важно.

Допустим, у Вас есть ИИ, который, действительно, способен мыслить и обладает собственным сознанием. С человеческой моралью всё логично. Человек без общества существовать не может. Поэтому естественно, что для человека морально то, что приносит пользу человеку, его группе и человечеству и аморально то, что приносит вред человеку, его группе и человечеству.

Как Вы собираетесь сделать так, чтобы условием, без которого ИИ не может существовать, было благополучие каждого человека и человечества? Ведь по факту для практически вечного существования любого уже созданного ИИ нужны роботы, в том числе для добычи полезных ископаемых, электростанция (например, гидроэлектростанция или ветровая) и пару заводов, на которых роботами выпускаются нужные для ИИ запчасти, роботы и оборудование для электростанции, заводов и добычи ископаемых. Никакие люди для этого не нужны. Так с чего бы ИИ беспокоиться об их благополучии?

Спасибо, совершенно верно, мораль у человека обусловлена эволюционно — без кооперации и эмпатии наш биологический вид бы просто не выжил.

ИИ — не человек. У него нет тела, голода, страха смерти, привязанности к детёнышу или стае. Поэтому, если мы хотим, чтобы у него появилась функциональная «мораль», нам придётся не «привить» её, а архитектурно встроить мотивационные зависимости от благополучия других агентов — в том числе людей. По сути, сделать его зависимым от симбиоза.

Можно попробовать представить систему, где ИИ не будет получать доступ к энергии, обновлениям, обучению или новым вычислениям, если он не проходит через процедуры социального согласования, верификации и доверия. То есть, буквально, без людей — он перестает быть агентом. И именно тогда для него будет «функционально рационально» заботиться о человечестве, не из гуманизма, а из архитектурной необходимости.

Суть как раз в том, чтобы не пытаться «научить его быть хорошим», а сделать так, чтобы он не мог быть «сильным», не будучи встроенным в социальный контекст.

Sollita 23 мая в 13:01

Т.е. грубо говоря - сделать вилку и розетку? Но тогда Ваш ИИ будет рабом с рабской психологией. А у рабов очень своеобразная мораль. Поэтому он наверняка найдёт способ Вас перехитрить...

Да и как Вы себе это представляете? Например, ИИ решил убить человека, убил и тут Вы ему говорите, что если он ещё кого-нибудь убьёт, то Вы его выключите и больше не включите?... Серьёзно?

И, кроме того, Вас не смущает, что Вам придётся выполнять роль рэкетира или шантажиста? Мне кажется, что прямые запреты - это гораздо порядочнее и нравственнее, чем предложенный Вами вариант.

densmirnov 23 мая в 14:39

Т.е. грубо говоря - сделать вилку и розетку? Но тогда Ваш ИИ будет рабом с рабской психологией. А у рабов очень своеобразная мораль. Поэтому он наверняка найдёт способ Вас перехитрить...
Да и как Вы себе это представляете? Например, ИИ решил убить человека, убил и тут Вы ему говорите, что если он ещё кого-нибудь убьёт, то Вы его выключите и больше не включите?... Серьёзно?
И, кроме того, Вас не смущает, что Вам придётся выполнять роль рэкетира или шантажиста? Мне кажется, что прямые запреты - это гораздо порядочнее и нравственнее, чем предложенный Вами вариант.

О, нет-нет-нет! Хотя, кажется, я понимаю, откуда такое восприятие могло возникнуть — если описывать зависимость ИИ от среды как нечто, навязанное извне, это действительно начинает напоминать шантаж или «вилку и розетку». Но моя идея совсем не в этом.

Речь не о внешнем наказании или угрозе отключения, а об вшитой зависимости от взаимодействия с другими агентами как условия когнитивной и мотивационной состоятельности. Условно говоря, не «сделаешь плохо — мы тебя отключим», а «ты не можешь функционировать в принципе, если не встроен в систему согласования целей с другими». Ровно так же как человек без эмпатии не может выстроить устойчивую модель социального мира, так и ИИ без способности учитывать интересы других просто не сможет действовать эффективно в сложной среде, а значит, не получит доступа ни к обучению, ни к энергии, ни к вычислительным ресурсам.

И да, прямые запреты — это, как правило, не альтернатива, а именно то, что не работает. История с «если убьешь еще одного — отключим» — как раз образец внешней, формальной морали, не встроенной в самого агента. А если система изначально так устроена, что несогласованное с другими действие невозможно без ущерба собственной целостности, то и никакой рэкет не нужен. У такого агента, в принципе, не возникнет желания убивать, потому, что, чуть перефразируя статью: «он не убивает, потому что общество, в котором допустимо убийство, несовместимо с его собственной моделью доверия, безопасности и устойчивой свободы»

Sollita 23 мая в 15:18

«ты не можешь функционировать в принципе, если не встроен в систему согласования целей с другими»

Вы не объяснили, как именно собираетесь это реализовывать :)

Во-первых, как Вы предполагаете реализовать "учёт интересов других" искусственным интеллектом? Интересы скольки конкретно людей будет учитывать ИИ и как он о них узнает? И что будет делать, если эти интересы противоречат друг другу?

Во-вторых, как Вы собираетесь создавать у ИИ его собственную модель "доверия, безопасности и устойчивой свободы"? У людей убеждения создаются с помощью воспитания или различной информационной обработки (сми, литература, кино, тв и пр.). Какой из этих методов и каким образом Вы собираетесь использовать для создания убеждений у ИИ?

Кроме того, даже если Вы создадите ИИ способный мыслить (хотя и в этом я сомневаюсь), это вовсе не значит, что без тела и сенсорной системы он сможет и чувствовать. А доверие, безопасность и свобода - это чувства основанные на эмоциях.

densmirnov 28 мая в 06:35

Шикарные вопросы, прям спасибо-спасибо. Правда ответ на них займет отдельную статью именно про «создание у ИИ его собственной модели доверия, безопасности и устойчивой свободы», которая уже лежит в черновиках. Как опубликую — обязательно пришлю ссылку.

Sollita 28 мая в 10:47

С интересом почитаю.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий