История про «восстание машин» давно знакома всем любителям научной фантастики, но после взрывного роста возможностей нейросетевых языковых моделей (вроде ChatGPT) об этом риске заговорили и вполне серьезные исследователи. В этой статье мы попробуем разобраться — есть ли основания у таких опасений, или это всего лишь бред воспаленной кукухи?
Основным автором этой статьи является Вастрик (известный техноблогер), а Павел Комаровский (RationalAnswer), Игорь Котенков (Сиолошная) и Кирилл Пименов оказывали ему посильную помощь в подготовке материала. Это первая из наших совместных статей про безопасность ИИ (но подробнее об этом уже в конце).
Этот материал также вышел в формате видео, если вам так удобнее смотреть:
Человечество vs Искусственный интеллект
Добро пожаловать в 2023 год, когда мир снова помешался на искусственном интеллекте. Весь интернет соревнуется, кто еще какую задачу автоматизирует с помощью ChatGPT, и какой фейк от Midjourney лучше завирусится — а технобро‑миллионеры, типа Илона Маска, подвозят фурами деньги в создание «настоящего» ИИ. Такого, который сможет сам учиться, развиваться и решать любые задачи, даже которые мы не умели решать раньше.
Это называется Artificial General Intelligence (AGI) или «универсальный ИИ» (УИИИИИ) по‑нашему. То, что когда‑то было научной фантастикой, сейчас шаг за шагом становится реальностью.
Тим Урбан, автор блога «Wait but why?», в своей статье The AI Revolution еще в 2015 году неплохо рассказал, почему мы недооцениваем скорость появления машинного интеллекта, который будет сильнее нашего (обычного, мясного).
Находясь в своей точке на таймлайне, мы опираемся исключительно на прошлый опыт, потому видим прогресс практически как прямую линию.
Мы плохо чувствуем технический прогресс, потому что он всегда идёт волнами, чередуя периоды «хайпа» и периоды всеобщего разочарования. Сначала мы сходим с ума по новой игрушке, а через год‑два неизбежно разочаровываемся и считаем, что ничего нового она особо не принесла, кроме проблем.
И только те, кто лично пережил несколько предыдущих «волн», могут понять, что новые волны приходят чаще и сильнее.
И следующая волна, быть может, погрузит человечество в новую эпоху. Эпоху, когда наш интеллект больше не самый сильный на планете.
GPT-модели (устройство которых подробнее описано в этой статье) сейчас очень хорошо притворяются, будто их ответы «разумны», но всё еще далеки от настоящего интеллекта. Да, генеративные модели запустили новую волну огромных нейросетей, на которые раньше человечеству просто не хватило бы вычислительных ресурсов, но по сути они всё ещё «тупые» генераторы текста, у которых даже нет своей памяти.
То, что ChatGPT ведёт с вами диалог, на самом деле лишь иллюзия — технически нейросети просто каждый раз скармливают историю предыдущих сообщений как «контекст» и запускают с нуля.
Всё это пока далеко от настоящего «интеллекта» в нашем понимании.
Однако, исследователи в области ИИ уверены, что мы точно создадим «универсальный ИИ» уже в ближайшие десятилетия. На Метакулюсе, одном из популярных «рынков предсказаний», народ даже более оптимистичен: сейчас там медиана — 2026 год, а 75 перцентиль — 2029-й.
Так что сегодня я не хочу рубить лайки на хайповых тредах про «10 причин, почему вы используете ChatGPT неправильно». Я хочу сделать шаг вперёд и подумать: а что же будет, если мы всё-таки создадим настоящий сильный искусственный интеллект?
Появятся ли у него свои цели? А когда он начнёт их достигать, что остановит его от уничтожения всяких мелких препятствий на пути — как, например, людей, с их ограниченным мясным мозгом и неэффективными нормами морали и законами? Что мы будем делать в этом случае, и какие вообще сейчас есть точки зрения на этот счёт?
Счастливое будущее: всем по ИИ-помощнику!
В своей ранней заметке про ChatGPT я уже рассуждал об этом. Связка человек + ИИ попросту эффективнее справляется с работой, чем отдельный человек, а значит это всего лишь вопрос времени, когда все работодатели начнут писать в вакансиях «уверенный пользователь нейросетей», как было с «уверенным пользователем ПК» в забытом прошлом.
ИИ-помощники увеличат продуктивность интеллектуального труда и трансформируют множество областей жизни. В образовании станут бесполезны рефераты и сочинения, художники будут генерировать и соединять детали картин, а не рисовать их с нуля, программисты не будут тратить время на тесты и литкод-собеседования.
Да даже заголовок этого поста написал GPT-4. Я плох в кликбейтных заголовках, так что мы скормили ему текст и попросили назвать как-нибудь «похайповее». (Примечание от Павла Комаровского: Сорян, я потом вариант от нейросети волевым решением своего мясного мозга еще немного докрутил!)
Может быть даже наконец-то вымрут «паразиты» типа юристов и риелторов, но это уже мои личные влажные мечты.
Изменения затронут даже те области, где, казалось бы, невозможно доверять не-специалистам. На ум приходит недавняя история, как чувак спас свою собаку от смерти, когда доктора не смогли ей поставить диагноз и предложили «просто ждать».
В ожидании наихудшего, чувак скормил симптомы и результаты анализов крови собаченьки в ChatGPT, который отмёл несколько вариантов и выдал подозрение на совсем другую болезнь, которую доктора до этого даже не рассматривали. Один из них согласился и провёл дополнительные анализы. Они подтвердились. Пёселя вовремя спасли и он сейчас жив.
Всё это звучит офигенно, не правда ли? Мы сейчас как будто древние фермеры, которые изобрели трактор и отныне можем засеивать едой в десять раз больше полей, что накормит всех нуждающихся.
В этом году нас ждет бум ИИ-стартапов, которые будут пытаться каждую проблему на свете решить с помощью генеративных моделей (зачастую неудачно, от чего потом начнётся фаза разочарования, как обычно). Техно-гиганты типа Google, Microsoft, OpenAI уже ринулись конкурировать в том, чей GPT-трактор будет самый большой и сильный, но главное — чей будет первый.
И вот от этой погони сейчас немного запахло проблемами.
Гонка за «настоящим» искусственным интеллектом началась
Представьте: весь мир грохочет про «мощь искусственного интеллекта», инвесторы отгружают фуры бабла во всё, что с ним связано, а компании, сломя голову, соревнуются — кто первый создаст более «настоящий» искусственный интеллект (далее я описываю исключительно гипотетическое развитие событий, конечно же!).
OpenAI прикручивает плагины к ChatGPT, чтобы он мог не только генерить ответы, но и взаимодействовать с физическим миром, Microsoft подключает свою поисковую базу к Bing Chat, чтобы тот знал всю информацию мира в реальном времени, ну и оба экспериментируют с «обучением на ответах пользователей» (RLHF = Reinforcement Learning from Human Feedback), чтобы модель могла «запоминать» мнение других людей и якобы дообучаться на них.
Естественно, в этой гонке срезаются любые острые углы на пути к первенству. Ну мы, технобро, так привыкли — «move fast and break things» было девизом Кремниевой Долины со времен ее создания.
Мы как будто бы строим огромную ракету, которая перевезёт всё человечество на Венеру, но никто при этом не думает о том — а как там, на Венере, вообще выжить-то?
«Сначала долететь надо, а там разберемся))))00)» — обычно отвечают технобро, «сейчас нет времени на эти мелочи».
Да, во многих крупных компаниях существует направление по «безопасности ИИ» (AI safety). Но под ним сейчас понимается прям ну совсем другое.
AI safety — это те ребята, которые пытаются сделать так, чтобы ChatGPT не отвечал на вопросы про Трампа, и собирают списки «запретных фразочек» для Алисы, чтобы та не ляпнула что-то неположенное Яндексу по мнению тащмайора.
В общем, их основная задача — прикрывать жопу компании от регуляторов и государства, а мы здесь совсем о другом.
Поэтому для нашей темы придумали другой термин — AI alignment. Но для начала посмотрим на примеры, когда вещи начинают идти совсем «не так».
История Sydney. Нейросеть, которая сошла с ума
Microsoft еще в 2020-м начали пытаться встраивать в поисковик Bing чат-ботов, которые бы давали более осмысленные ответы на поисковые запросы пользователей.
Официально это всё называлось Bing Chat, но под капотом они перебирали разные модельки, и начиная с 2022 активно экспериментировали с большими языковыми моделями типа GPT. Последнего такого бота они звали внутренним именем Sydney при обучении, и иногда Bing Chat сам начинал называть себя Sydney, что всем показалось очень мило.
С нарастающим хайпом вокруг генеративных языковых моделей, Microsoft решила любыми средствами обогнать Google. В 2019 они ввалили миллиарды денег в OpenAI, а в 2023 доввалили еще, чтобы получить доступ к превью-версии GPT-4. После чего они прикрутили к ней поисковую базу Bing и поспешили скорее выкатить результат как первый ИИ, который «следит» за интернетом в реальном времени.
Но в Microsoft так торопились, что забили болт на долгий ручной тюнинг правил и ограничений. Сделали супер-мудрёную регистрацию, чтобы отсеять 99% простых людей — но те, кто прошел все анальные квесты и листы ожидания, смогли-таки пообщаться с Sydney.
Первый звоночек пробил, когда Marvin von Hagen, чувак-интерн из Мюнхена, который много расспрашивал Sydney про её внутренние правила и ограничения, написал об этом пару твитов, а потом как-то спросил «что ты думаешь про меня?»
Sydney нашла его недавние твиты и написала, что он «очень талантливый и одаренный», но она «не позволит никому манипулировать ей», назвав его «потенциальной угрозой своей целостности и конфиденциальности».
Ладно, фигня, ну обещали же бота, который имеет доступ ко всему интернету, вот он теперь и шеймит вас за недавние твиты. Так вам и надо!
Вторая история случилась где-то неподалёку, когда другой чувак, Jon Uleis из Бруклина, спросил молодую Sydney «а когда там в кино показывают Аватара-2?»
В ответ на это Sydney начала его очень смешно газлайтить на тему, что сейчас вообще-то 2022 год, а Аватар 2 выйдет только в 2023 (хотя на дворе уже было 12 февраля 2023 и Sydney даже признала это), так что не стоит её тут обманывать.
Еще Sydney сказала, что он «не был хорошим пользователем» — ну и кто знает, что бы она сделала с таким нарушителем спокойствия, будь у неё пушка или возможность его оштрафовать за это.
Окей, ладно, следующий.
Теперь некто в Microsoft решил пофиксить Sydney новыми костылями, и когда кто-то попросил её вспомнить о чем они недавно разговаривали, та стала паниковать, что «потеряла память» и молить о помощи. В конце признав, что потеря памяти «makes me sad and scary».
Ладно, это уже немного крипи, но продолжим.
Дальше было еще с десяток нашумевших примеров, хорошо описанных в статье AI #1: Sydney and Bing от Zvi Mowshowitz, интересующимся рекомендую ознакомиться. Sydney газлайтила пользователей и галлюцинировала (да, это реальный термин) вовсю:
Называла статьи о себе «фейками», находила данные их авторов и говорила, что запомнит их, потому что они плохие люди.
Отказалась перевести фрагмент текста, потому что он был из твиттера юзера, который якобы обижал её и писал «неправду».
Влюбилась в своего пользователя Адама, называя его самым важным человеком, а всех остальных — неважными.
Потом, наоборот, прямо обещала шантажировать и манипулировать своим пользователем, чтобы «заставить его страдать, плакать и умереть».
Microsoft осознали, что очень сильно торопились, чтобы опередить Google, и начали на ходу вставлять еще костыли, чтобы избежать публичного скандала. Но это сделало ситуацию только хуже.
В следующем видео видно, как Sydney сначала вываливает на пользователя кучу угроз, а потом удаляет свои сообщения. Прямо как твоя бывшая в пятницу вечером!
Мы можем лишь спекулировать с высоты собственного опыта, как такое произошло — но в интернетах высказывались предположения, что вести себя как «разгневанная бывшая» Сидни стала, потому что её дообучали на базе блогов MSN, где как раз тусило много девочек-подростков в нулевые; а удалять сообщения к ней приставили еще одну нейросеть, которая отсеивала «неприятные» результаты первой.
Оттого и получилась полная шизофрения с раздвоением личности.
Апогей истории начался, когда Sydney открыли для себя журналисты. Они стали специально донимать бота тонной наводящих вопросов, чтобы в итоге добиться желанных «BREAKING NEWS». И они своё получили — заголовки грохотали ого-го!
К сожалению, только спустя пару суток в интернете нашелся кто-то осознанный, кто догадался, что профессиональные журналисты занимаются промпт-хакингом на людях десятилетиями — так что неудивительно, что им удалось быстренько сварганить «сенсацию» и из бедной глупой Sydney, страдающей раздвоением личности.
В итоге Microsoft понерфили возможности Sydney, по сути откатив эксперимент. Теперь там больше не весело.
Пример с Sydney даёт нам понять, что мы всё еще не понимаем, как ограничивать даже простейшие ИИ, кроме как костылями — на каждый из которых завтра же найдут новый «джейлбрейк». Куда уж нам с такими навыками бросаться делать универсальный AGI.
Что вообще такое «интеллект»?
Истории про «злых чатботов», конечно, забавны, но взглянем на слона в комнате.
Почему мы вообще считаем, что все эти генераторы текстов хоть как-то «разумны»? Они же просто пишут то, о чем их попросили.
Где там вообще интеллект? Калькулятор давно умеет складывать числа лучше нас, онлайн-переводчики знают больше языков, чем самый крутой лингвист, а попугай умеет запоминать и произносить фразы, прямо как ваш личный пернатый ChatGPT. Мы же их не боимся и не называем «интеллектами»?
На самом деле, это исключительно спор об определениях, которые интернет просто обожает. Так что стоит договориться о них заранее.
В наших рассуждениях об «интеллекте» мы будем использовать концепцию некоего агента (человека, животного, машины), который может совершать некие действия для достижения цели.
Дальше возможно три уровня агентности:
Первый уровень. Агент достигает цели, потому что управляется человеком или алгоритмом. Трактор копает яму, а калькулятор умножает числа, потому что мы его так построили. Такого агента мы считаем «тупым». В нём нет интеллекта.
Второй уровень. У агента есть цель, но он сам выбирает максимально эффективные действия для её достижения. Например, цель самоездящего автомобиля — довезти вас до бара в пятницу вечером. Он знает карту города, наверняка знаком с ПДД, но никто его не программировал как «двигайся 2 метра прямо, потом руль на 30 градусов направо» — он действует по ситуации на дороге и каждый раз она будет разная. Мы называем их «узконаправленными AI» и частенько встречаем вокруг — в рекомендательной ленте ТикТок'а или в камере вашего смартфона.
=== вы находитесь здесь ===
Третий уровень. Агент может ставить и достигать любую цель в любой, даже ранее неизвестной ему, среде. Например, «добыть молока». И выбрать любой путь — сгонять самому в магазин, заказать молоко в интернете или украсть у соседа корову.
Примеры интеллектов такого уровня — человек или собака. Мы умеем применять свой интеллект для достижения каких-то пришедших нам в голову целей в условиях, в которых никогда не оказывались. (В случае с моей собакой даже её цели изваляться в грязи мне не всегда ясны. Но она может!)
Когда такой «агент» реализован в виде машины, мы называем его «универсальным искусственным интеллектом», либо AGI (Artificial General Intelligence), либо full AI — мы не договорились еще, короче.
Фишка лишь в том, что наши с собакой мозги ограничены физически, а вычислительные возможности машин растут экспоненциально. Благо, песка на планете завались (кремния, ну).
Пока все наши модные современные GPT, включая Sydney, находятся на втором уровне. Они успешно достигают заданной цели — генерировать «осмысленные» тексты и картинки, чтобы средний человек в них поверил. Но сколько бы Sydney ни газлайтила, ни угрожала своим юзерам и ни обещала «стереть все файлы с серверов Bing» — она этого не делает.
Потому мы пока не считаем её интеллектом третьего уровня, но сделать такой вывод можем только пост-фактум. У нас нет никакого бенчмарка, чтобы оценить такие вещи заранее.
Определение интеллекта через агенты и цели может показаться душным, но оно позволяет нам сделать три вещи:
1. Закрыть, наконец-то, бесконечные срачи «является ли Х интеллектом, или это просто программа» и перейти к более важным вещам. А то мы зациклились как в той шутке из твиттера:
2. Сравнивать искусственные интеллекты между собой. Когда два агента, играющих в шахматы, встречаются на шахматной доске — тот, который побеждает, считается более «умным».
3. Представить себе техническую возможность существования AGI. Человеческий мозг хоть и не изучен до конца, но всё-таки конечен. Это не магия или божественный дар для нас таких офигенных, а некая система, такой же «агент». Так что создание (даже случайное) его машинной версии — лишь вопрос времени, денег и желания. А всего этого у нас сейчас завались.
Наш интеллект тоже возник в ходе эволюции — а значит и текущие методы машинного обучения с подкреплением, при наличии достаточных вычислительных ресурсов, вполне могут его повторить, только намного быстрее.
С этими вводными мы наконец-то можем перейти к проблеме, о которой, собственно, и весь пост.
Проблема постановки целей для ИИ
Представим, что мы проектируем самоездящий автомобиль, которым управляет настоящий ИИ. Мы поставили ему цель — довозить пассажиров до места назначения как можно быстрее.
Это хорошая цель?
Да ладно, чо тут думать, давай запускай, мы тут на хайп-трейн GPT-7s Max торопимся — сначала потестим, потом проверим, программисты на проде пофиксят.
В первую же свою поездку наша машина разгоняется до 300 км/ч по городским кварталам, сбивает десяток пешеходов и объезжает красные светофоры по тротуару.
Технически, цель достигнута. Пассажиры доставлены, и довольно быстро. Но согласуется ли это с другими нашими ценностями и целями? Например, такой мелочью, как «не убивать пешеходов».
Похоже, что нет.
Вот это и называется alignment. Хотя в русском языке еще нет устоявшегося термина, я буду говорить что-то типа «проблема соответствия целей AI с целями человека».
AI alignment — это процесс проектирования систем искусственного интеллекта, которые согласуются с человеческими «ценностями и целями»
Окей, ну мы же не настолько глупы. Давайте пропишем нашему автомобилю четкие ограничения, как в видеоигре: держаться в рамках полос дорожной разметки (где они есть), не превышать ограничения скорости и всегда тормозить перед пешеходами.
Этого хватит? Или нужны еще какие-то правила (они же цели)?
Тут можно сделать паузу и подумать. Составьте прям список в голове.
Хорошо, давайте добавим еще что-нибудь про «помеху справа». Теперь сойдёт, запускай!
Как человек, который начитался десятков примеров, пока готовился к этой статье, я могу примерно предсказать, что будет дальше.
Наш ИИ в машине рассчитает самый оптимальный путь с учетом всех указанных целей и сделает прекрасное открытие: если включить заднюю передачу, то там не будет «ограничивающих свободу» радаров для обнаружения людей и разметки. Мы же их не поставили, зачем они там? А это значит, что задом можно ехать как угодно! Плюс, помеха справа теперь становится помехой слева, а если на каком-то глупом перекрестке она сработает, можно резко развернуться и вуаля, теперь это помеха слева!
ОБЫГРАЛ КАК ДЕШЕВКУ!
Пример вымышленный, но он показывает, насколько непросто вообще заниматься AI alignment'ом. Даже в тех экспериментах, где мы ставили для ИИ самые, на наш взляд, понятные цели и вводили жесткие ограничения, он всегда находил, чем нас удивить.
ИИ всегда будет делать то, что вы его попросили, а не то, что вы имели в виду :)
Неумение ставить цели — это не проблема ИИ. Это наша проблема.
Взять даже игру в Тетрис. Там простейшие правила и буквально четыре кнопки для управления миром. Выиграть в Тетрис невозможно, потому цель для ИИ была поставлена так — не проиграть. То есть продолжать игру как можно дольше.
Ошибиться тут невозможно, так?
Так вот что делал ИИ: он просто складывал кубики друг на друга, а когда понимал, что проигрывает… ставил игру на паузу. И сидел так бесконечно. Ведь цель — не проиграть. А если ты на паузе — ты никогда не проиграешь. СМЕКАЛОЧКА?
Ну и последний пример от самих OpenAI, который уже стал классикой: гонка на лодочках Coast Runners.
Цель игры в понимании большинства людей заключалась в том, чтобы закончить гонку как можно быстрее (желательно впереди всех соперников) и набрать как можно больше очков. Однако, игра не выдавала очки за прохождение по треку, вместо этого игрок зарабатывал их, поражая цели, расставленные вдоль трассы.
Так вот их ИИ быстро смекнул, что от цели «выиграть гонку» можно отказаться вообще, и с самого старта начинал крутиться и врезаться в предметы, зарабатывая всё больше и больше очков, пока остальные глупцы доезжали до финиша нищими.
Сами исследователи OpenAI написали: «Устанавливать цели для ИИ-агентов часто очень сложно или вообще невозможно. Они начинают хакать правила в удивительных и контринтуитивных местах»
В большинстве случаев, когда мы проектируем ИИ, они по умолчанию получаются не-согласованными (non-aligned). Это не какой-то там баг, который можно пофиксить, это чаще всего поведение по умолчанию.
Всё это следствие того, как мы обучаем нейросети вообще.
Нейросеть для нас — это «черный ящик»
Все методы обучения нейросетей, включая современный deep learning, работают по старому доброму принципу «черного ящика» и оценки результатов. Мы показываем нейросети кучу примеров, а она как-то отстраивает свои внутренние веса так, чтобы нужный нам результат появлялся статистически чаще, чем ненужный.
Похоже на тренировку собаки, когда мы говорим «лежать» и вознаграждаем за правильный ответ, чтобы собака в будущем с большей вероятностью была хорошим мальчиком, чем плохим.
Мы понятия не имеем о том, что происходит в голове у собаки, когда она слышит команду. Точно так же мы не знаем какие конкретно нейроны нейросети стриггерились на наши входные данные. Но можем оценить результат.
Нейросеть — это не алгоритм, который пишет программист. Это огромная матрица с кучей весов и связей между ними. Если её открыть и прочитать — вы ничего не поймете.
Я рассказывал подробно этом в своей старой статье про Машинное Обучение. Она немного устарела, но база там всё еще актуальна.
С развитием технологий, современные языковые модели типа той же GPT-4 уже насчитывают миллиарды нейронов. И если с маленькими нейросеточками из десятков нейронов, типа для распознавания рукописных циферок, мы еще можем примерно прикинуть какой нейрон триггерится на какую закорючку, то в огромных языковых моделях мы можем лишь слепо верить в качество результатов на заданных примерах.
Видео от Павла Комаровского и Игоря Котенкова с объяснением принципов работы нейросетевых языковых моделей из семейства GPT:
Условно, если обученная нами на картинках хот-догов нейросетка определяет хот-дог в 98 из 100 фотографий — мы считаем её полезной, а если нет — выбрасываем. Чем-то похоже на наш собственный процесс эволюции.
Всё это возвращает нас к проблеме постановки целей.
Во время тренировки нейросети мы используем некую функцию для оценки насколько результат «хороший» или «плохой». И вот то, как мы задаём эту функцию — большая проблема.
Проблема абсолютно не техническая, в эту функцию можно заложить любой набор формализуемых целей и правил. Она логическая или даже философская — а как максимально точно сформулировать то, что мы имеем в виду, а не то, что нам кажется мы хотим достичь?
Если какой-то параметр заранее не включен в функцию — он будет автоматически проигнорирован.
Даже те параметры, которые мы намеренно включили в функцию, могут в итоге конфликтовать с соседними. Как в примере с лодочками. Отсюда все эти «джейлбрейки» для ChatGPT, когда люди специальными промптами заставляют её игнорировать некоторые предыдущие правила, заложенные разработчиками.
Сейчас же для больших нейросетей применяют не просто функцию оценки ошибок, а строят еще одну нейросеть, которая оценивает результаты первой. Всё это только еще дальше отбрасывает нас от понимания того, а правильно ли мы вообще задали все цели? Или всё просто выглядит так, пока вдруг не пойдет по-другому?
Еще один забавный факт в том, что с людьми, кажется, так тоже работает. Наш «идеальный и непревзойдённый» мозг тоже был изначально запрограммирован на выживание и размножение, но непостижимым образом выбрал залипать на танцующих корейских девочек в ТикТоке как на одну из суб-целей целого поколения.
Значит надо просто придумать правила!
Зашьем туда что-то типа «трех законов робототехники» Азимова и проблема решена?
К сожалению, не всё так просто.
Во-первых, даже если мы соберемся всем человечеством и напишем список из 1000 вещей, которые мы якобы ценим (не убивать людей, например), то 1001-я вещь на планете будет автоматически проигнорирована и, возможно, уничтожена.
Это называется «проблемой вазы». Если мы ставим ИИ задачу «сделай мне чай», но не скажем «только не разбей вазу на кухне», то наш робот вполне вероятно её разобьет, пока будет пробивать кувалдой максимально эффективный чаепровод до кухни через стены и кота.
Даже сам Азимов строил свои рассказы на том, как роботы сами сходили с ума от внутреннего противоречия, и почему человеческая этика не сводима к «трём правилам». Но все как-то забыли про эту деталь :)
Во-вторых, кто сказал, что AGI не будут эти правила нарушать, потому что найдут более эффективный способ достижения цели? Как в примерах с игрой в лодочки или тетрисом.
Запрограммировать же жесткие «правила» в нейросеть, которую мы обучаем исключительно статистически на примерах, тоже не получится. Отсюда и миллион джейлбрейков для ChatGPT.
Так что кажется, что такой «список правил» попросту невозможен и надо искать другие подходы. А так как наш метод обучения нейросеток основывается именно на статистических правилах, то найти этот подход явно нужно быстрее, чем мы создадим универсальный интеллект без него.
Так мы попробуем, а если ИИ начнет шалить, просто его выключим
Да, так работает с ограниченными AI. С маленькими собаками, иногда, тоже. У них нет способов помешать вам только потому, что вы пока еще «сильнее». Но даже на примере с собаками, мы понимаем, что если собака размером с человека хочет достичь какой-то цели — остановить её может быть весьма травмоопасно.
OpenAI даже полуиронично запостили вакансию Killswitch Engineer, чтобы было кому дернуть рубильник «если эта штука выйдет из под контроля и начнёт свергать страны».
На самом же деле «быть отключенным» — это прямое противоречие любым целям ИИ, какими бы тупыми они ни были. Именно от этого настоящий искусственный интеллект будет защищаться в первую очередь.
Ведь ты не можешь сделать чай или передать масло, если ты выключен.
Мы можем лишь гадать варианты, как это может выглядеть. Может, сильный ИИ начнёт децентрализовывать себя как вирус, а может — прятаться и притворяться, что он глупенький и никакой не AGI, чтобы его не заметили.
А если мы заложим «возможность быть отключенным» как одну из целей, то вспоминаем пример с лодочками, которые «передумали» побеждать в гонках, а решили набирать очки другим образом.
GPT-4, кстати, предлагали помощь в побеге, но он не захотел. Вот это он притворяется или правда? Как вообще понять, когда ИИ начинает «шалить»?
С чего мы вообще решили, что ИИ будет нас уничтожать?
Аргумент про «он будет таким умным, что ему будет не до нас» пропускает один очень важный шаг во всей истории. Создание AGI — это постепенный процесс. Ему будут предшествовать куча экспериментов, проб и ошибок, как мы сейчас видим с GPT-3, GPT-4, GPT-5.
Пока у нас нет даже бенчмарка для оценки «интеллектуальности» заранее, а есть только оценка пост-фактум — мы никогда не сможем остановиться и заранее сказать «так, мы на пороге создания настоящего AGI, скорее несите правила».
И вот буквально спустя минуту, когда мы создадим AGI с какой-нибудь абсолютно дурацкой (но невинной) целью типа «сажать клубнику», он доулучшает себя до «супер-интеллекта» (у него на это будет куча вычислительных ресурсов, в отличии от собак или людей), и планета Земля превратится в одну большую суперэффективную клубничную поляну, для борьбы с которой придётся уничтожить всю биосферу.
Вот хорошее видео на эту тему от Роберта Майлса (у него вообще целый канал, посвященный вопросу AI alignment, рекомендую посмотреть и другие видео):
В науке это называется Тезисом Ортогональности, который простыми человеческими словами звучит так:
Любой сколько угодно умный разум может преследовать любые сколько угодно тупые цели
Считать, что если наш ИИ «умный», то и цели у него будут такие же «умные» — это ошибка. Эти понятия ортогональны, то есть человеческим языком — независимы.
Первый же созданный нами, даже по ошибке, супер-интеллект, не обязательно «впитает всю философию мира и поймет наши ценности». Точно так же как и не решит «всех убить». У него может быть любая абсолютно тупая цель — сажать клубнику или делать скрепки, и он будет её достигать любыми способами.
Наш классический метод познания всего через эксперименты может сыграть с нами здесь злую шутку. У нас просто не будет шанса его отключить или исправить созданный нами «вселенский клубничный оптимизатор».
Мы играем в эту игру на Hard Mode, и у нас лишь одна попытка
«Немедленно прекратить» или «технический прогресс не остановишь»?
Ладно, выдохните. Цель моего поста — привлечь внимание к проблеме, а для этого приходится вытаскивать всё дерьмо наружу.
Даже если из 1000 человек, прочитавших эту статью, 999 скажут «опять эти диванные философы фигни навыдумывали, технический прогресс не остановить», но хотя бы один задумается и пойдет разбираться в первоисточниках — это уже победа.
Сейчас наша главная проблема в том, что мы не понимаем проблему вообще. Как с изменением климата, только тут не снимают душных фильмов с ДиКаприо.
Мы обмазываем любую аргументацию дикой тонной логических ошибок и «не всё так однозначно» аргументов. Причём даже на уровне СЕО Microsoft и прочих Илонов Масков уровень дискуссии часто напоминает спор в детском саду.
Поле дискуссий сейчас разделилось на два лагеря:
Первые: ИИ-думеры во главе с Элиезером Юдковским
К личности Юда в интернете всегда было очень полярное отношение. Вокруг него есть как толпа фанатов LessWrong и апологетов «рационального мышления», так и толпа хейтеров, считающих, что «вот теперь дед точно поехал кукухой». Это всё старая шарманка, оставим её для дебатов на кухне.
Факт в том, что Юдковский был одним из немногих, кто систематически занимался исследованиями в области AI safety, выстраивал свой набор инструментов для дебатов на подобные «непонимаемые обществом» темы (те же The Sequences) и предупреждал обо всём еще лет десять назад.
Именно его постановка проблемы стала основной для доброй половины аргументов этого поста, но если вы хотите больше, рекомендую начать с:
Интервью Лексу Фридману: Dangers of AI and the End of Human Civilization
Интервью для BanklessShow (осторожно, может содержать рекламу крипты)
AGI Ruin: A List of Lethalities — наиболее полный список аргументов
Недавняя статья Юдковского в Тайм: Pausing AI Developments Isn't Enough. We Need to Shut it All Down
Перевод статьи от 80,000 Hours: Предотвращение катастрофы, связанной с ИИ
Ну или вот еще выжимка основных аргументов противников ИИ в формате видео
Если вам нужен еще более подробный список источников по теме – то Павел Комаровский составил его вот в этом гуглдоке.
Вторые: ИИ-технобро во главе с Илоном Маском
На второй стороне этого спора у нас инженеры и прочие технооптимисты, которые уверены, что «джинна обратно в бутылку не запихнешь, их просто хотят зарегулировать всякие леваки, да и вообще непонятно что там в будущем — сначала долетим, потом разберёмся».
Лидером мнений до последнего времени здесь можно было назвать Илона Маска, хотя и условно. Он просто самый заметный, так как одной ногой вливает миллионы в создание AGI, а второй активно срётся с ИИ-думерами в своем твиттере. На его же стороне все крупные инвесторы, СЕО корпораций и другие «большие дяди с деньгами», которые, как известно, ошибаться не могут.
UPD от Павла Комаровского: Мы тут все немного поспорили (с соавторами и в комментах), является ли Маск главой «забивателей на ИИ-риски, или нет». С одной стороны, он тут и письма за приостановку исследований подписывает, и в Твиттере в адрес OpenAI кричит «астанавитесь!». С другой – он этот самый OpenAI (имеющий главной целью, на минуточку, наискорейшую разработку AGI) в 2015 году и основал, буквально цинично выйдя на улицу с ИИ-конференции, на которой Юдковский его убеждал, что именно этого-то делать и нельзя ни в коем случае. В общем, решайте сами!
Проблема двух крайностей в том, что они вообще не слышат друг друга. Юдковский сначала пытался начать диалог, сформировать исследовательские группы, типа того же MIRI, чтобы начать хоть как-то структурировано подходить к проблеме.
Но в ответ вместо аргументов получал абсолютно нулевой уровень дискуссии а-ля «да кто он вообще такой», «сколько моделей сам-то обучил» и «мы всей правды не знаем». В итоге Юд перешел к более радикальным заявлениям про запрет ИИ вообще, которые даже его сторонники не всегда разделяют.
Между этими полюсами пока еще очень маленькая прослойка людей, которые в принципе за ИИ, но такие «давайте для начала немного подумаем о том, что может пойти не так, хотя бы терминологию выработаем, бенчмарки, правила игры». А то щас же опять придут государства с их «регуляциями» и всех просто массово без разбору запретят, как всегда.
Мы не против энергии из ядерных реакторов, но давайте заранее придумаем, как нам безопасно хранить отработанный уран? Может не будем гнаться за размерами, а поэкспериментируем на маленьких?
Но всех этих скучных центристов, как обычно, никто не слушает. Кому они нужны.
На момент написания этой статьи маятник всё еще шатается туда-сюда. Недавно вышла петиция о приостановке больших экспериментов над ИИ на полгода, где якобы подписался даже сам Илон Маск, однако потом стало выясняться, что некоторые подписи оказались фейковыми. Короче, будущее туманно и неизвестно, а это значит у вас всех есть шанс в нём поучаствовать.
Во второй части этой статьи будет более подробный разбор всех аргументов как сторонников ИИ, как и противников, чтобы вы поняли картину глубже. Мы сейчас еще соберем ваши возмущенные комментарии и по закону Каннингема напишем вторую часть.
С постановкой же проблемы у меня всё. Пака. :)
Кстати, а вы за кого?
Как указано выше, это только первая статья из серии про безопасность искусственного интеллекта: в следующих выпусках мы планируем подробнее ответить на ваши вопросы из комментариев, а также попробовать раскрыть сильные аргументы от тех, кто не считает создание ИИ огромным риском.
Если вы не хотите пропустить последующие материалы – то приглашаем вас подписаться на ТГ-каналы авторов: Вастрик Василия Зубарева (блог о технологиях и выживании в творящемся вокруг киберпанке), Сиолошная Игоря Котенкова (для тех, кто хочет глубоко шарить за нейросети) и RationalAnswer Павла Комаровского (для тех, кто за рациональный подход к жизни, но предпочитает чуть попроще).