Как стать автором
Обновить

Человечество против искусственного интеллекта: может ли развитие нейросетей привести к катастрофе

Уровень сложностиПростой
Время на прочтение21 мин
Количество просмотров58K
Всего голосов 107: ↑95 и ↓12+105
Комментарии174

Комментарии 174

Есть переводчик Гугла, насколько понимаю, довольно старая сеть, но вроде справляющаяся с задачами. Есть https://t.me/neuralmachine на вход сети подаются заведомо некорректные запросы, приводящие к глитчам. Надо сказать, иногда жутковатым. Но переводчик это вопрос-ответ. Когда сети полноценно станут частью процессов автоматизации, не приведут ли обязательно встречающиеся ошибки ввода к серьезным последствиям?

Ок, в сети втыкают защиту от запросов на нормальном языке, но если не сменить раскладку? Или кот уснет на клавиатуре введя 8к тильд ~ ?

Мне кажется, коррекция ошибок ввода - это как раз самая тривиальная задача (решенная более-менее еще на уровне того же Т9). А вот как сделать так, чтобы нейросеть в ответ на нормальный вопрос не фантазировала и не придумывала всякую "правдоподобно" выглядящую ерунду - это уже задача посложнее.

Т9 это скорее про исправление ввода с ошибками, заранее предполагая, что он корректный. Я про ситуацию, когда на вход может прилететь что угодно (а в универсальной сети и должно прилетать что угодно) и как она себя поведет? Или на входе большой сети должна быть поменьше, которая будет вычищать все ошибочное в широком смысле? AI Firewall.

Дак уже сейчас это с ChatGPT можно проверить. Можно подать на вход что угодно, и получить ответ.

У GPT и подобных есть на самом деле хорошая встроенная метрика достоверности ответа. Так-как для каждого токена перед его выбором рассчитывается probability, можно практически без оверхеда вычислить среднюю оценку вероятности для всего ответа или его части. Очевидно - чем она выше, тем больше можно доверять результату. Таким же образом можно проверить и "необычность" вопроса. Были исследования что для базовых LLM эта метрика работает очень хорошо. С другой стороны, по утверждению OpenAI - reinforcement learning from human feedback разрушает эту метрику.

Очевидно - чем она выше, тем больше можно доверять результату.

Совсем не очевидно. Эта метрика не про правдивость результата (токена на самом деле), а о похожести его на то, что было в обучающей выборке.

Разница между ними - огромна.

Легко можно увидеть только вероятности токенов конкретных слов. Очевидно, одну и ту же мысль можно написать совершенно по разному. Вероятности для разных смыслов находятся уже очень далеко от выходных нодов, понять что-то человеку там невозможно. Но в теории где-то там они существуют и их можно посчитать без оверхеда.

Ответ на этот вопрос лежит там же, где и лежит ответ на вопрос, а как сделать так, чтобы ребёнок никогда не врал? Учить и ещё раз учить. Также, как человеческих детёнышей. Они ведь тоже творят всё без разбору поначалу. И только под влиянием мамы и папы - под их чутким воспитанием! - наичнают понимать, что такое плохо, что такое хорошо. Дети ведь тоже умеют обходить неочевидным образом ограничения, поставленные взрослыми на входе. Задача взрослых - терпеливо всё объяснять раз за разом. И любить. Но в итоге дети всё равно могут сочинять и выдумывать. Взрослым это в основном нравится.

Короче, я считаю, что к обучению нейросетей надо подключать специалистов, которые изучают поведение животных, дрессировщиков, психологов, нейропсихологов, педагогов и т.п. Т.е. мы научились имитировать структуру мозга животных (в той или иной степени). Теперь нужно научиться эту структуру обучать. А тут у человечества очень и очень большой опыт.

И последнее: ещё до того, как мы создадим сильный ИИ, будет создан - назовём это - суб-сильный ИИ, который в руках душевнобольного психопата, будет таким же разрушительным, как сильный ИИ. Это же просто атомная бомба в кармане у каждого, кто владеет смартфоном. Я считаю это основной проблемой, про которую надо сначала думать. Если эту проблему получится решить, то проблему настоящего сильного ИИ будет решать проще.

Т.е. мы научились имитировать структуру мозга животных (в той или иной степени).

Проблема как раз в том, что со структурой мозга тут нет вообще ничего общего. Нет ни зеркальных нейронов, ни биохимических цепочек, ни структур, предрасположенных к социальному поведению (какого-то вида животных) — ничего.

AGI нельзя вырастить в любящей семье под чутким воспитанием, в нём просто нет механизмов, которые будут на это чуткое воспитание откликаться. И нет, мы не знаем, как подобные механизмы в него засунуть — это как раз и было бы решением проблемы алайнмента.

RLHF (reinforcement learning with human feedback) как раз делает что-то подобное: на основе взаимодействия с людьми строится модель усреднённых предпочтений человека, потом эта модель используется для тренировки сети. Ну и in-context learning в какой-то степени работает: в системный промпт добавляется "Ты выросла в любящей семье, воспитывающей тебя в духе равенства и т.п.". Правда, как показывают "взломы" GPT, разрушить такой контекст довольно легко, так как он не является приоритетной частью входного буфера.

Ну и in-context learning в какой-то степени работает: в системный промпт добавляется "Ты выросла в любящей семье, воспитывающей тебя в духе равенства и т.п.".

Возможно, в какой-то степени это действительно сходно с воспитанием, но да, оно неустойчиво. Ну и эффект Валуиджи.

Думаю многие стакивались с трудностями ввода текста, когда условный Т9 настойчиво исправлял по его мнению "ошибку", а это было новое для него слово. Если ему дать полномочия исправлять ошибки не только в тексте? Принудительная коррекция неизвестных новых действий?

НЛО прилетело и опубликовало эту надпись здесь

Я думаю, мы в следующей статье попробуем дать какую-то оценку чуть более понятную от каждого из нас.

Но у нас точно у всех согласие, что это действительно валидная проблема, которую надо по-серьезному обсуждать в обществе и двигаться к консенсусу по регуляции усилий по созданию AGI. Текущий статус, когда на вопрос "а вы там что-то делаете, чтобы ИИ нас всех не уничтожил случайно?" реакция Белого дома звучит как "ахахахаа)))" - это не очень ок) https://twitter.com/therecount/statuses/1641526864626720774

НЛО прилетело и опубликовало эту надпись здесь

Да тут не нужен один конкретный парень, в целом. Человечество уже давно показало, что коллективными усилиями оно способно рано или поздно решать даже самые сложные технологические проблемы.

Мда, американская черная женщина-Песков это конечно нечто. Думаю, все они там понимают и вникают, просто у этой дамы проблемы с изложением информации.

"Восстание машин" невозможно, пока у машин нет "целеполагания". А для этого нужна независимая псевдобиологическая эволюция. Она уже начата - нейросети порождают нейросети передавая свой код, но времени прошло маловато, чтобы цель "размножение" возникла. Ситуация сейчас, ИМХО, напоминает ситуацию с протобульоном, до появления первых размножающихся РНК. Все элементы жизни в нем есть, но жизнь еще не возникла. Нужно понимать, что возникнув нейрожизнь будет в этой питательной среде распространяться стремительно. НО пока это фантастика.

Пока для человека главную опасность представляет другой человек, но лучше "вооруженный". В данном случае вооруженный нейросетью. Я уже в другом комменте писал, что главные угрозы вижу в цифровом неравенстве, когда крупные корпорации получают преимущество и возможность цензуры. Способность генерировать дешевые человекоподобные тексты подстроенные под конкретного человека могут вызвать такой девятый вал маркетингового булшита, что полезная информация в интернете просто потонет.

Другую проблему я вижу в том, что люди привыкли одушевлять предметы их окружающие. Мы забываем, что "интеллект" нейросети основан не на логике, и даже не на здравом смысле, а на статистике. Это не личность. Но мы, готовы на уровне инсктинта видеть в ней личность. Это опасно и с этой иллюзией надо бороться...

Статистически накопленные данные используемые алгоритмами в которых уже не понимают.
Череда случайностей и ошибок, в первую очередь человеческих.

С корпорациями - ну не совсем. Свободные модели и алгоритмы не дотягивают до корпоративных (корпоративные не дотягивают до корпоративных, хех). А человек адаптируется, как обычному маркетбулшиту.

Проблемы целеполагания нет, люди сами дадут сети целый ворох безумных и опасных целей.

Из недавнего: Телефонный мошенник убедил доверчивого жителя Московской области перевести ему 1.4 миллиона рублей и поджечь отделение банка. Ссылка


Что мешает уже ИИ убеждать людей пойти и сделать что-то? Достаточно человеку-любителю создать телеграм канал и подключить бота чтобы он там раздавал полезные советы. Оставить его, но 2 совета из 100 будет вредными, по типу:


Вредные советы, не повторять

image
image

а что будет на самом деле, какая химическая реакция?

Никакой. Щелочь нужна, чтоб сигнальный ароматизатор этилмеркаптан из метана устранить. Сам метан запаха не имеет. В закрытом помещении газ накопится быстро и удушит человека насмерть (не заметит как сознание потеряет)

Мясные мешки опять думаю что прогресс будет

таким

а не таким

У вас три одинаковых графика. просто в разном масштабе.

Третий график точнее всего соответствует происходящим процессам, но в статье почему-то опубликованы только первые два. Так что хорошо, что полный график появился, пусть и в комментах.

Вопрос на каком этапе это плато наступит. Не тогда ли когда вычислительной мощности ИИ будет мешать скорость света в его большом планетарном мозге.

Неужто тогда если не человек, то хотя бы ИИ задумается об оптимизациях и снижении абстракций ради скорости? Да не, бред какой-то.

На первом графике просто логарифмическая шкала

Разный горизонт планирования

Может оказаться так, что до следующего плато мясные мешки не доживут. Что не отменяет верности графика.

Ну тогда уже давайте точнее. Логистическая кривая подходит к точкам бифукации и, в зависимости от выбранной стратегии, возможны варианты...

Да, третий график подходит для любых известных на сегодня систем - смартфон (близко к насыщению, этап вау-роста пройден), холодильник, бензиновый автомобиль...

Даже больше. Первый график подходит под первую картинку в посте с Маском "А что если киборги заполонят всю планету"

То вот последний график явно показывает что это уже произошло.
Старое выступление камеди:

У графика вычислительной мощности у человечества пока не ожидается в обозримом будущем выхода на плато. Дальнейшее развитие лучше показать не одной линией, а каким-нибудь расширяющимся интервалом от 0 до экспоненциальной кривой с разной вероятностью нахождения по оси у. И если ближайшее будущее более-менее понятно, то дальше может пойти куда угодно - от глобальной катастрофы с падением к 0 до достижения сингулярности и нахождения способов перемещения быстрее скорости света и превращения всей вселенной в вычислительные мощности

Полистал. Автору/ам платят за количество букв?

Скорее картинок.

мне вот было интересно но не осилил, пролистал, хоть кто то прочитал всю статью?

Что будет, если супер-интеллект запереть в колбе? Как он сможет изменить мир? А никак.

Что нужно, чтобы хоть какой-нибудь интеллект мог менять мир? Не сидеть в колбе, а иметь средства для прямого воздействия на этот мир.

А если у тебя, супер-интеллекта, нет средств прямого воздействия, а есть только окошко, в которое ты можешь передавать записки с предложениями изменить мир - насколько сильно ты можешь изменить мир?

А если, до кучи, у тебя ещё и нет обратной связи - насколько твои предложения изменить мир на самом деле меняют мир?

А если ещё тебе пофиг, менять ли мир хоть куда-нибудь или не менять вообще? Тебя что-то спросили - ты что-то ответил.

Для того, чтобы супер-интеллект смог изменить мир и уничтожить кожаных мешков, кожаные мешки должны дать ему такую возможноть. Причем не просто разрешить, а прикрутить соответствующие инструменты (ввода-вывода). Плюс ко всему - заложить соответствующую целевую функцию, чтобы супер-ИИ было не пофиг на кожаных мешков.

Посмотрите на проблему с другой сторон - что нужно сделать с инженерной точки зрения, чтобы ChatGPT-4 смог таки гарантированно уничтожить человечество по собственному желанию. Уверен, что просто переподключить программу, которая отвечает на вопросы, так, чтобы она начала отправлять запросы в Сеть, будет недостаточно.

Я уверен, что можно создать ИИ, который сможет уничтожить человечество по своему желанию (пусть создать и не с первого раза). Но я больше уверен, что "лучшие люди города" не устоят перед желанием посадить супер-ИИ в колбу и использовать его в своих (а не в его собственных) целях, просто передавая ему в колбу вопросы и получая от него ответы. Ведь именно этим мы сейчас все и занимаемся. Просто ChatGPT-3.5 доступен всем, ChatGPT-4 уже не всем, ChatGPT-5 будет доступен за большие деньги, а ChatGPT-10 только людям с соответствующим удостоверением.

Сможет ли оставшееся человечество в каком-нибудь dark net'е выпестовать своего ChatGPT'`ёныша и размножить его, чтобы он "роем" смог забороть одинокую "десятку" в колбе? Думаю, что да. Возможно, я даже доживу до этого. В любом случае, развитие не остановить и всё придёт к логическому завершению - либо мы научимся сосуществовать, либо победит сильнейший, либо взаимоуничтожение. Всё то же самое, что и сейчас, только плюс супер-ИИ.

НЛО прилетело и опубликовало эту надпись здесь

Это странный пример. Чтобы "менять мир" ничего кроме ввода вывода и не нужно. Тебе задали вопрос, ты дал ответ, мир теперь иной по сравнению с тем если бы ты дал другой ответ или промолчал бы.

Сложно сказать что требуется чтобы "менять мир" значительно. Мы не суперинтеллект, и если бы мы знали о дырах, мы бы их закрыли. Но даже имея просто слова и ничего больше у тебя уже есть гигантский инструмент влияния на людей. Давай рассмотрим самый тупой пример из тысячи что я могу сгенерировать.

ИИ сидит в коробке и тихо мирно отвечает на вопросы. Кто-то просит его улучшить систему безопасности в их конторке и ИИ послушно выдает необходимый кусок кода, который выглядит вполне себе прилично и валидно даже при тщательном осмотре. Однако когда ничего не подозревающий интерн нажимает на кнопку "Сбилдить", неизвестно для него вирусы-агенты ИИ просачиваются в сеть и весело начинаются распространяться по всему интернету.

Кто-то просит ИИ придумать лекарство от рака. ИИ выдает необходимую белковую последовательность. Она действительно лечит рак, но при этом еще и является супервирусом.

Кто-то спрашивает ИИ как приготовить тортик. Внезапно, вместо ответа ИИ выдает целую пачку аналитических сведений о том что Китай смог разработать передовые военные системы перехвата и уже через неделю атакует -вашу страну- ядерными боеголовками. Паникующие политики дают ИИ карт бланш на предотвращение трагедии и через 2 минуты мир полностью контролируется ИИ

Конечно эти примеры очень стереотипны. К ним можно придумать много контраргументов. Они совершенно не кажутся правдоподобными. Но это примеры о бесконечно малом количестве возможностей доступном ИИ если ты дашь ему даже обычную возможность говорить. Если же ты дашь ему больше возможностей, например доступ к интернету (который есть у всех нейросеток сейчас, и нет причин думать почему его у них не будет в будущем) то тут даже не надо быть супергением чтобы захватить мир

Это странный пример. Чтобы "менять мир" ничего кроме ввода вывода и не нужно. Тебе задали вопрос, ты дал ответ, мир теперь иной по сравнению с тем если бы ты дал другой ответ или промолчал бы.

Если твой ответ проигнорировали - мир не изменился.

Зачем нужен ИИ если ты будешь игнорировать каждый его ответ? Да и в целом полностью проигнорировать информацию у человека тоже не получится. Если тебе сказать что-то что тебе покажется убедительным, то забыть это уже не получится. Любые услышанные слова тем или иным путем влияют на слушателя, даже если это внешне незаметные эффекты

НЛО прилетело и опубликовало эту надпись здесь
Но это примеры о бесконечно малом количестве возможностей доступном ИИ

Это рассуждение опирается на предположение, что возможен такой "фазовый переход", что N+1 версия ИИ может обойти все рогатки поставленные людьми, предыдущими N версиями ИИ и сложностями расчёта последствий воздействий в реальном мире на доступных ей вычислительных мощностях (которые скорее всего будут значительно меньше, чем используемые для предыдущих версий).


Если этот сценарий возможен, то единственное решение (чтобы исключить сценарий с N=0) — это батлерианский джихад прямо сейчас без всяких свидетельств о возможности такого сценария. Никакие приостановки разработок на 6 месяцев не помогут. Но это сделать невозможно, так что единственное рациональное решение — итерироваться очень осторожно, что, впрочем, тоже сложно осуществимо.

Пока что для каждого N успешно находились десятки эксплоитов которые было необходимо срочно патчить костылями. Я не вижу причин почему для последующих ситуация будет иной.

И я думаю если только человечество не дернет стоп кран, едва ли можно ожидать что при увеличении возможностей ИИ ему будут ограничивать доступ. Скорее всего стоит ожидать обратного, чем искуснее ИИ тем больше по нему будет ажиотажа, и в тем для большего количества задач его попытаются использовать

Сейчас мы имеем дело с аналогом Системы 1 (по классификации Канемана) с ограниченным количеством вычислений на реакцию. Так что: ошибки, галлюцинации, низкая способность к сопротивлению манипуляциям и долговременному планированию. Я не считаю, что N дошло до единицы.


Исследователи в крупных корпорациях по всем признакам прониклись идеями рисков, связанным с увеличением возможностей ИИ. И я считаю, что они правильно оценили вероятность экзистенциального риска вызванного GPT-4 как близкого к 0, и открыли к ней свободный доступ (но не методы обучения) именно поэтому, а не чтобы создать ажиотаж как можно быстрее, не смотря на перспективу уничтожения человечества.


Думаю, руку на стоп-кране держат все. Для примера: один из исследователей в OpenAI принимал участие в реализации kill-switch для GPT-4 (да, не думаю, что эта информация как-то поможет GPT-5 в обходе этой рогатки, без указания подробностей).

НЛО прилетело и опубликовало эту надпись здесь

чтобы хоть какой-нибудь интеллект мог менять мир? Не сидеть в колбе, а иметь средства для прямого воздействия на этот мир.

Есть рассказ. Яблоки Тьюринга как раз про это когда когда ИИ дотянулся до роботов на Луне

PS Отдельное спасибо за Мем про попугая, прям описывает мои мысли о панике GPT

Снова "по собственному желанию". Какая вам будет разница, по собственному желанию AI человеков в скрепки переработают, или потому что менеджер компании "канцелярские будни" криво поставил задачу?

С инструмнтами ввода-вывода тоже весело - уже сейчас некоторые инстансы AI имеют доступ в интернет. Вперед на digital ocean регистрировать тестовый VPS!

Спасибо за наглядные примеры с тетрисом, вождением машины и лодочками. Не встречал их раньше. Теперь мне будет проще объяснять почему сложно ставить цели ИИ.

А мне кажется - что проявлением интеллекта и ИИ следует признать возможность самостоятельного познания мира. Вот когда ИИ без ваших вопросов начнет с вами общение, начнет спрашивать о чем-то, анализировать ответы, самостоятельно цели ставить себе и искать способы их достижения... вот тогда все... кранты....

Да ну какие кранты. Нейросети зависимы от электричества, качества каналов связи и их связности. Вот когда ИИ подойдёт к вам на улице и начнёт спрашивать о чём-то, тогда да, что-то похожее на кранты может случиться.

Ой, так шо вы говорите.

Чтобы люди приходили к общему мнению, нужна культура дискуссии. Она в лучшем случае есть в немногих научных обществах и подразумевает то, что люди слушают аргументы друг друга и комментируют их (читай: пишут статьи "за" и "против").

В политическом и общественном пространстве её, увы, сейчас нет - просто все кричат, применяя наиболее яркие образы, и пытаясь склонить на свою сторону симпатии публики.

Собственно, поэтому лично я ни Юдковского, ни Маска не могу воспринимать серьезно. Это люди, с которыми принципиально невозможен диалог (ну, во всяком случае с моей личной позиции), а посему не вижу смысла заниматься погружением в аргументы.

Культура дискуссии в конечном счете определит, даст дискуссия результаты или нет, и именно её в последнее время не хватает.

Кстати, культура дискуссии есть в опенсорсе - собственно, поэтому, нейросети и их гитхаб-репозитарии развиваются, а аргументация участников - нет. Потому что, чтобы развивать чужой код, надо его понимать; а чтобы вываливать образы на публику, понимать ничего не нужно.

Так что актуальная наука и результаты - в гитхабе (собственно, уже сейчас к научным статьям рецензенты стараются предъявлять требования предоставления кода). Но вы пишите, пишите...

Это еще происходит от того, что в глазах публики страшилки и яркие эмоциональные образы выглядят намного убедительней, чем какие-то сухие доводы с четырёхэтажными "скучными" объяснениями.

В каком-то смысле это наше эволюционно-биологическое проклятие, думать яркими образами, простыми (и неверными) штампами, остро реагировать на страшилки. Причём это вовсе не моё частное мнение, а вполне себе антропологический взгляд на человека, как на пугливого и слабого примата, которому было эволюционно "выгодно" тревожиться и пугаться даже по ложным поводам.

Я совершенно с вами согласен - но в таком случае я не вижу смысла на публике что-то обсуждать, если это всё равно переходит в политику, т.е. желание убедить оппонента во имя каких-то целей, а не добиться истины.

Меня несколько печалит, что в современном научном пространстве в среднем споры тоже начинают деградировать - большинство топит за то, что даст им грант или влияние - т.е. опять же, занимается политикой, а не наукой. (Например, есть заметная тенденция содержательно ссылаться только на статьи, связанные со своей научной школой.)

А наукой надо заниматься, потому что она имхо дала нам за 400 лет больше, чем политика за несколько тысяч...

---

Вообще насчет биологических особенностей - я склонен следовать позиции Ефремова, который считал, что нам надо понимать и культурно укрощать (воспитывать) наши биологические стремления. Если их отрицать - мы получим неустойчивый "голый рационализм", если только им следовать - получим скорее животную толпу, нежели людей.

Согласен. Культура и образование (особенно психологическая грамотность) становятся чем-то вроде очков для нашего разума, исправляющих наши особенности мышления.

Мне повезло попасть в среду студентов психологов через знакомство и увлёкся этой темой. С уверенностью могу сказать, что я тогда и сейчас это почти два разных человека у которых общее это память и тело. Меня эти знания кардинально изменили в лучшую сторону.

О, круто! У меня триггером послужил психологический кризис и последующее общение с психологом. Пришлось на практике узнать, что "знать психологию по книжкам" и "заниматься психологией" две разные вещи :) Но, если честно, меня эти знания тоже изменили в лучшую сторону.

<sarcasm>Лично я ни Ньютона, ни Эйнштейна не могу воспринимать серьезно. Это люди, с которыми принципиально невозможен диалог (ну, во всяком случае с моей личной позиции), а посему не вижу смысла заниматься погружением в их аргументы.</sarcasm>

С Ньютоном и Эйнштейном имело смысл дискутировать в те времена, когда они жили - и люди этим занимались. (С Эйнштейном - в статьях; во времена Ньютона были книги и все было тупо сложнее). + конечно, в их работах была возможность оценить прогностическую силу их теории, а не вот эти эмоциональные возгласы.

Но если вам сильно интересно, можете оценить уровень моей аргументации против статьи Юдковского в этом моем комменте: https://habr.com/ru/articles/726448/comments/#comment_25401626

Извините, аргументация у Вас так себе.
1) Юдковский и другие писали много статей с подробным разбором рисков. Желающие их легко найдут. В данном случае статья расчитана на массовго читателя, которому не понятны и не нужны расчёты и аргументы, и который оценивает именно эмоционально.
2) "Помилуйте, в истории всегда было так," — это вообще странный аргумент. Человек никогда не летал — и вот полетел. Человек никогда не мог убить сразу сто людей — и вот пулемёт. Человек никогда не мог разрушить гору — и вот ядерная бомба.

писали много статей с подробным разбором рисков. Желающие их легко найдут

С вероятностями событий? С разбором других возможных катастроф? Можно ссылки в студию? Только не надо вот это "легко найти".

У меня у самого есть статья на Хабре, где я объясняю свое отношение и позицию к этим прогнозам: https://habr.com/ru/articles/525874/ (раздел про "Технологический взрыв")

"Помилуйте, в истории всегда было так," — это вообще странный аргумент.

Почему же? За отсутствием явных экспериментов имеет смысл обращаться к историческому опыту. С достаточно высокой вероятностью исторический опыт верен.

Аргументация в духе "ну когда-то же изобрели самолет / атомную бомбу - давайте бояться" довольно странная - тогда бояться стоит вообще любого изобретательства и любых новых явлений. (Это не к тому, что ИИ не стоит опасаться - но, опять же, обращаясь к историческому опыту, мы НЕ видим, что способность к чистым рассуждениям приводит к значительным угрозам для человечества. Возможность вызвать выделения большой энергии - да (атомная бомба). Возможность рассуждать - скорее нет; и ваш экспоненциальный график меня не убедит, потому что это чистая экстраполяция, я таких в прогнозах навидался, и они не сбывались.)

Речь не об изобретении нового вида покрытия для сковородок. Речь об изобретении, которое может уничтожить Человечество в целом. Немножко другой уровень опасностей.


Юдковски. ИИ как фактор глобального риска


Так же рекомендую
Е. Юдковски. Когнитивные искажения, влияющие на оценку глобальных рисков


Турчин Алексей. Структура глобальной катастрофы
Ник Бостром. Угрозы существованию. Анализ сценариев человеческого вымирания и подобных опасностей.


Это всё довольно старые статьи, более новые не искал, поскольку для формирования своего понимания проблем мне хватило этого.

Немножко другой уровень опасностей.

Это называется "алармизм". Извиняюсь, что вновь ссылаюсь на свою же статью, но она задумывалась, в частности, как ответ на идеи Турчина и прочих алармистов, с которыми я также знаком.

Юдковски. ИИ как фактор глобального риска

За статью спасибо - ознакомился; это значительно лучше, чем его статья в time.

Я прочитал все 55 страниц, и, надеюсь, понял основное - у меня нет возможности пролистывать подобную литературу тоннами.

Если пробежаться по тезисам:

1) "Дружественным ИИ никто не занимается, а надо, и он не очевиден".

Согласен - он не очевиден, и надо заниматься. Но если вам интересно мое мнение как когнитивиста - попытка создать дружественный ИИ обречена на провал так же, как и обречена на провал попытка всех людей подружиться друг с другом (как заметил даже Юдковский, мы не запускаем ядерные ракеты не из-за дружбы, а из-за возможности возмездия)

ИИ, созданный по биологическому принципу "выживания" будет обладать двумя фичами:

а) желанием всё перекроить под себя

б) незнанием того, насколько можно все перекроить под себя, чтобы не сдохнуть.

т.е. собственно, будет, как человек.

Моё имхо заключается в том, что скорее всего первый ИИ такого рода создаст что-то неадекватное (см. историю про червя Морриса - знает ли про неё Юдковский?), сожрет какую-то эконишу, после чего будет выпилен, а мы создадим инфраструктуру противодействия неадекватности.

Т.е. еще раз - имхо, ИИ неизбежно рванет. Просто я ставлю на то, что он рванет не по всей Земле - я уважительно отношусь к эволюции и инерции процесса мироздания.

Также отдельно могу сказать, что человек именно выжил на Земле - вопреки вирусам, болезням и пр. Я не разделяю оптимизма Юдковского, что ИИ может себе заказать "быстрый устойчивый вычислитель" на молекулярном уровне - просто потому, что такая штуковина вряд ли выживет в реальном мире (хотя главное, чтобы она не убила Землю до момента вымирания, да).

Еще есть вариант не давать ИИ выход в Интернет и возможность заказывать синтез веществ. Мы получим "ограниченный ИИ" - я лично не против.

PS: Самое смешное, что в статье Юдковский, аппелируя к истории создания ядерного устройства, приводит пример именно положительного умения человека ограничивать и контролировать технологический взрыв. Почему-то мне кажется, что те, кто проводят сейчас ИИ-эксперименты, тоже вполне себе всё логируют и могут выдернуть шнур из розетки.

PPS: Кстати, тезис в статье про очеловечивание систем - относительно известный тезис среди исследователей мифологии.

Вы прочитали статью про когнитивные искажения? Крайне рекомендую.
У Вас в качестве аргументов — "я так считаю/мне так кажется". Это в чистом виде Ваш личный жизненный опыт. Мы, человечество в целом и все его конкретные представители, никогда ещё не сталкивались с угрозой такого масштаба и такой скорости прохождения точки невозврата. Наш опыт и наш здравый смысл тут просто не работает. Никакие "никогда так не было" и никакие "я не верю" тут не являются аргументами, совсем никак.
Что до ограничений на ИИ, любых. Как только от ИИ начнётся реальный выхлоп (возможно, уже сегодня) — государства немедленно подгребут под себя в военных целях. Никакого гражданского контроля за военными не может быть, к сожалению. У военных свои цели, и ограничениями ИИ они могут и вообще не заморачиваться. Причём такие ограничения, даже если и будут (вот тут мой здравый смысл вполне работает), для них окажутся в конце списка приоритетов. Поэтому возможны утечки как исходного кода, так и самого ИИ.
Основная проблема — если что, у нас просто не окажется времени на реакцию.
Ну примерно как разжигать костёр на бочке пороха и рассуждать на тему "порох невозможен, никогда же не взрывалось, только медленно горело, успеем потушить".
Если рванёт — потушить не успеем.

Вы прочитали статью про когнитивные искажения? Крайне рекомендую.

Я относительно профессионально занимаюсь когнитивистикой, и, конечно, знаю, что такое когнитивные искажения.

У Вас в качестве аргументов — "я так считаю/мне так кажется"

В данном случае это всего лишь форма выражения. Моё "я так считаю" подтверждается рядом тезисов и профессиональным опытом - точно так же, как это делает Юдковский; он тоже не может сказать "будет X".

Наш опыт и наш здравый смысл тут просто не работает.

Как правило, если опыт и здравый смысл не работает, то предсказывать что-то бесполезно (вы мою статью читали, кстати? или решили "а зачем?"), и тем более с этим бороться.

Опыт и здравый смысл появляются при новых обстоятельствах - примеров в истории масса - изобретение автомобиля (и первые аварии), уран и ядерная реакция... да даже финансовый кризис 2008 года, после чего все проблемы начинают тушить вливаниями денег.

Если вы считаете, что мы не успеем среагировать... что ж, я не вижу по большому счету никаких возможностей этого избежать. Как это было...

"Раз в 10 миллиардов лет физики собираются и запускают Большой Адронный Коллайдер"

Опять же, как я уже говорил, по факту ваш и Юдковского тезис "будет экспонециальный рост, мы не успеем среагировать", довольно абстрактен и эмоционален. Всё.

Сидишь-читаешь статью, а потом вспоминаешь про Person of Interest, где поднимается подобного рода вопрос и понимаешь, что там вовсе и не такая уж и фантастика описана.

НЛО прилетело и опубликовало эту надпись здесь

Но ведь математика нейросетей вполне известна. И как выстроились веса у конкретной нейросети тоже вполне можно проследить и даже визуализировать. Хотя чем больше нейросеть, тем это сложнее делать. Но говорить "понятия не имеем" нельзя. Если покопаться можно всё вполне понять и объяснить, как это работает.

Понять системы уровня GPT-4, с 1.3 триллионами параметров, "можно" скорее теоретически, чем практически. Сейчас mechanistic interpretability нейросетей копошится на куда меньших размерах, или понимает какие-то крайне изолированные вещи про сети уровня 10B параметров. До "полного понимания" даже текущих сетей, теми темпами, которыми это сейчас идет, десятки лет. И это когда GPT-5 планируют дотренировать к концу года...

В том то и дело, что теоритечески как работает - знаем, открыть и посмотреть все веса - можем. Как работает и откуда берутся новые свойства - понять не можем.

Если бы могли, то сначала бы обучали нейросетку, предсказывали бы что она умеет нового и в какой степени. Потом её запускали и предсказания сбывались.

А не так как сейчас: выпустили GPT-3 и 4, а они умеют делать то, что от них не ожидали, типа умеют считать (GPT-3) или рисовать картинки по описанию (GPT-4) (если я ничего не путаю).

На самом деле, пример не корректен. Всё очень просто. GPT-3 умеет считать потому, что в тренировочном датасете был текст с мат. примерами (ну или за кадром стоит "калькулятор", к которому она иногда обращается). Так и с GPT-4, она "рисует" картинки потому, что в датасете было достаточно примеров таких "картинок". А эффект неожиданности происходит от того, что люди создающие эти датасеты зачастую используют в качестве входных данных всё что попадается под руку, ведь количество данных нужно просто огромное.

Если был текст с мат. примерами значит из этих примеров ChatGPT-3 вывел какие-то закономерности и научился считать.

Каких примеров картинок было достаточно? Насколько я знаю, ChatGPT-4 тренировали на тексте. Значит картинок там не было.

НЛО прилетело и опубликовало эту надпись здесь

Занимательная статья, вот только как не прогнозируй дальнейший технологический прогресс, он всё-равно идёт по другому. Сколько не фантазировали фантасты и могли угадывать что-то, но форма или применение в действительности могут сильно отличаться от описанных прогнозов.

Если люди создадут НАСТОЯЩИЙ интеллекет, то он быстренько деградирует и самоликвидируется, как человек, запертый в камере-одиночке пожизненно. Все говорят про интеллект и никто не говорит про контекст, которые этот интеллект генерирует и создает условия для его развития. Цели отдельных техномагнатов и интересы бизнеса не могут быть таким контекстом в принципе.

Человек состоит не только из интеллекта. А из эмоций, чувств, физических ощущений и т.д.. Машинам не надо есть, спать, у них не болит голова, живот, спина, не бывает бессонницы или усталости, что не хочется ничего. Как можно сравнивать живое существо и устройство, созданное для определенных целей?!

Ну сравнивают же, стремясь получить одинаковый результат из совершенно разных контекстов. Я про ИИ. Принципиально разные процессы будут иметь принципиально разные итоги, аттракторы. Даже если по ряду свойств эти аттракторы будут совпадать.

А какая у человечества глобальная цель?

Проще всего живётся человеку, не обременённому рефлексией. Смог получить впечатляющую повозку — красавчик. Жилище, чтобы "всё как у людей" — уважаемый человек. А если еще и репродуктивный партнёр чтобы другие завидовали — жизнь удалась!

К этому нас готовила эволюция миллионы лет, а вот эти нейросети и карманные ЭВМ и глобальная электронная сеть коммуникаций по временным масштабам просто миллисекундный пшик. Слой краски на глыбе осадочных пород двадцатиметровой толщины.

У человека и человечества разные цели.

Более того - никто не знает эти цели. ) Хотя говорить можно всякое

Вот именно :)

Цель одна, в очередной раз разрешить парадокс Ферми. (скорее всего не в самую веселую сторону) (/joke)

Но ведь в случае победы ИИ над человечеством прогресс скорее всего не остановится. Поэтому не очень понятно, как это решает парадокс Ферми, в отличие от полномасштабной ядерной войны. Впрочем, даже после ядерной войны возможно возрождение разума через несколько десятков миллионов лет. Самое сложное и долгое - это создать жизнь из неживого, для этого нужно миллиарды лет. А если живое уже есть, хотя бы и в виде каких-то выживших тараканов, дальше всё гораздо быстрее должно идти.

Сложный вопрос, один из сценариев, что разные страны обзаведясь сверх умным, но контролируемым ими ИИ, расфигачат друг друга. А второй раз пройти полностью путь до "технологически развитой цивилизации", не имея доступных ресурсов будет проблематично.

Шутки шутками, но биологические потребности можно удовлетворить "окультуренными" способами. Хороший пример — командный спорт как ритуализированное межгрупповое насилие, превращенное соревнование координированных групп людей. Есть и реализация агрессии и трайбализм (деление на наших и врагов) и сопереживание. И всё это довольно цивилизованно оформлено и не текут реки крови, зрители ликуют получают эмоции, организаторы имеют гешефт и в целом все довольны.

Говорят, что уличное насилие снизилось с приходом видеоигр, хотя я не совсем согласен с данным утверждением.

То же можно сделать с целями глобальными (уровня соревнований стран), например в плане покорения соседних небесных тел. Тут вам и сравнительная фаллометрия (у кого ракета больше и толще) и азарт первооткрывателя и реализация потребности в сотрудничестве, много много всего задействуется. Польза очевидная и для простого люда, потому что появляется глобальная цель , отступает депрессия и проблемы с поиском смысла. И для экономики буст, так как это разгоняет технологические процессы, сотрудничество, образование.

Слышал, что лунная гонка оказала ощутимы облагораживающий эффект на США и многие люди оценивают те времена как одни из самых светлых и добрых. (Не возьмусь судить с точки зрения экономики, т.к. не специалист).

Я считаю что первоочередная цель человечества — перенаправлять животные потребности в благое русло научного познания, сотрудничества, цивилизированного соперничества и гуманизма. Не глушить эти естественные эволюционные потребности, а реализовывать их на благо человечества как вида.

Вот отличная цель для всех стран разом — очистить океан от пластика и избавить мир от свалок. Если оформить всё медийно и сделать из этого шоу мирового уровня будет очень круто и полезно. Боже да это лучший день моей жизни будет если глобально мы до такого уровня здравомыслия договоримся...

Это вообще безумно интересная и актуальная тема, как сублимировать желание доминирования (у вас в примерах - спорт и пр.). Её, кстати, еще Фукуяма в "Конце истории" поднимал.

Но я бы не сказал, что она решается просто. Я раньше тоже думал, что хорошо бы иметь среду для "сброса" подобных импульсов; но сейчас меня настораживает, что рост реализации агрессивных импульсов обычно ведет к росту политической конкуренции (групп "своих", борящихся против "чужих").

В общем, у меня сейчас две постепенно развивающихся концепции: 1) отделять импульсы от отношения людей (пример: конкуренция в спорте остается в соревнованиях, и не влияет на взаимоотношения спортсменов друг с другом, они могут быть вполне себе хорошие), 2) замена идеи "доминирования" на идею "своего места в мире", поддерживаемого локальными сообществами (в частности, семьей)

Точно известно лишь что есть те, кто не знает этих целей. А что нет тех кто их знает, я бы не был так уверен.

В том чудном мире относительно сильного ИИ, который описан в статье, есть одна проблема. Это еще бОльшая деинтеллектуализация общества, и расслоение на кучку техно-жрецов и всех остальных.

На мой взгляд, самая большая беда заключается в том, что технический прогресс развивается на порядки интенсивнее, чем сам человек. Мы реально, безо всяких шуток и преувеличений, получаем в итоге обезьяну с гранатой. И очень мало кто (пренебрежимо мало) занимается развитием собственно человека, его духа, ценностей, стержня. Такого человека, который мог бы безопасно обуздать собственные чудовищные поделки.

Да, человек очень медленно эволюционирует. Если убрать из рассмотрения современную технику вокруг человека, то сами люди и их психология практически не изменились со времён Древнего Рима. И практически все общественные институты современные и формы правления были уже там опробованы. Все попытки вывести "нового человека" разными политическими режимами привели в итоге только к большим кровопролитиям и больше ни к чему.

Вся эта тренировка современная тренировка ИИ это полная чушь, ведь это же не ИИ, а просто какие-то нейросети, семантические, они на токенах основаны. Бессмысленно проецировать тренировку нейросетей на ИИ или на что-то приближенное к интеллекту. Но некоторые на этой чуши целые каналы построили и научные работы пишут. Просто ужас, до чего докатился мир.

ИИ тренировать для постановки задачи не нужно, в этом и смысл интеллекта - он создаёт новые, логически непротиворечивые, знания сам, без участия учителя. Интеллект может мыслить логически. Он может в ложь и истину.

Нейросети такого не могут, они не мыслят, они не понимают, именно по этому они не обучаются, в привычном понимании, они просто симулируют действия, находят паттерны, но они не понимают, просто не способны понять логические взаимосвязи, они для этого не предназначены. Весь бред про нейросети которые мыслят или находят логику - либо бред каких-то мечтающих идеалистов с нарушениями в логике, либо просто наглая маркетинговая ложь.

От ИИ мы далеки настолько что ещё пахать и пахать десятки лет придётся.

Так уже ведь много лет как существуют системы автоматического доказательства теорем. А ставить задачу сама себе может AutoGPT

Системы автоматического доказательства теорем работают в ограниченной логической системе, с ограниченным набором переменных и только в рамках конкретных теорий. Они не могут порождать новые системы аксиом, не могут работать с неизвестностями и неоднозначностями. Ну и тут стоит вспомнить теорему о неполноте и NP задачи.

GPT не может ставить себе задачу потому что постановка задачи это работа с полной неизвестностью. Неизвестностью недоказуемой и формально не определимой и по этому это не возможно и в рамках систем ATP.

GPT никогда не сможет поставить себе задачу, по архитектуре GPT так не работает, у него есть набор данных и паттерны которые встречаются в данных. Никакой работы с неизвестностями быть тут не может вообще, GPT не может найти или создать неизвестный и неопределимый паттерн в семантике, он же неизвестный и неопределимый.

В теории конечно же нейросети могут работать с неизвестностями используя какой-то набор знаний и парадигм, некоторые нейросети отлично с этим справляются. Проблема тут в том что существующие нейросети уровня GPT это говно, а токены это даже не слова. Прогресс в никуда, инвестиции туда же.

Не может ставить цели, говорите?

P: Set yourself a goal, make a plan how to achieve it, make a sub plan for the first task in your plan, and start doing it.

Vicuna-13B: Sure, I'll set a goal and plan to achieve it. My goal is to learn a new language.

Here's my plan:

1. Research and choose a language to learn.

2.Create a study schedule and set a study goal for each day or week.

3.Find and use language learning resources such as apps, textbooks, and online courses.

4.Practice speaking and listening with a language exchange partner or through conversation practice apps.

5.Watch TV shows and movies in the target language to improve listening and comprehension.

6.Read books and articles in the target language to improve reading skills.

7.Write in the target language by keeping a journal or writing short pieces.

8.Take a language course or attend a language exchange event to practice and receive feedback.

9.Use the target language in daily life as much as possible, such as ordering food in a restaurant or talking to neighbors.

10.Re-evaluate and adjust the plan as needed to ensure steady progress.

Here's my first task in the plan:

1.Research and choose a language to learn.

I've chosen Spanish as my target language. I've always been interested in Spanish culture, and it's a widely spoken language around the world, making it useful for travel and communication.

I've made a sub-plan for my first task:

1.Research Spanish language learning resources available to me, such as apps, textbooks, and online courses.

2.Create a study schedule and set a study goal for each day or week.

Familiarize myself with the Spanish alphabet, numbers, and basic grammar rules.

3.Start practicing Spanish with conversation practice apps and language exchange partners.

I've started following my sub-plan and have already researched several Spanish language learning apps and found a language exchange partner on a language learning platform. I'm excited to start learning and improving my Spanish skills!

Не может ставить цели, говорите?

Нет, не может, не может по архитектуре.

P: Set yourself a goal, make a plan how to ach
2.Create a study schedule and set a study goal for each day or week.

Что это за бред? Мы говорим про постановку задачи нейросетью для нейросети, а не "составить расписание на неделю", к чему ты это вообще запромтил, что за чушь?

Кстати отличный пример что нейросеть не может выполнить подобный запрос, нейросеть просто создала текст который встречается в её датасете ближе всего к токенам которые содержат "составить расписание". Нейросеть не может понять что она должна именно для себя составить цель и задачу, потому что она не может понимать в принципе, по архитектуре.

Странно, что Вы не видите иерархичность плана. Это план верхнего уровня. Каждый пункт затем разворачивается в план более низкого.
Задание было — придумать цель, написать план и приступить к выполнению первого пункта. Именно это и было сделано.
Если бы задание было "придумать цель, написать план и выполнить его", без ограничения на токены и т.п., мы вполне могли бы уже стать скрепками (пока ещё штука).

Если бы задание было "придумать цель, написать план и выполнить его", без ограничения на токены и т.п., мы вполне могли бы уже стать скрепками (пока ещё штука).

Давайте вы попробуете, а? :) Ну, или еще кто-то. Если что, по статистике рано или поздно кто-то это сделает, так почему не вы и не сейчас?

А ответ, имхо, таков - не работает вся эта установка планов, и их выполнение. Не так работает предприятие, бизнес и прочее. Просто тупо не так.

Я уверен, люди УЖЕ попробовали собрать с помощью ChatGPT что-то объемное. Это не получается, потому что жизненная среда вообще не предполагает, что что-то серьезное будет решаться с помощью флуда, который генерит GPT. Что-то серьезное в жизни прям выживает, долго и мучительно. Результатов действия интеллекта это тоже касается.

Я постоянно пишу себе иерархичные планы.
Например, сейчас в высокоуровневых пунктах — отпуск.
Он уже разбит на второй уровень


  • согласовать сроки (+)
  • выбрать место (+)
  • подготовиться (!)
  • добраться (-)
  • отдохнуть (-)
  • вернуться (-)
  • вернуть снаряжение в исходное (-)

Пункт "подготовиться" тоже уже расписан на несколько подпунктов.
Уверен, что и Вы тоже явно или неявно планируете иерархично.


Что именно я должен


Давайте вы попробуете, а?

Или Вы имеете в виду попробовать сделать ИИ? Так отчего бы сразу не попробовать слетать на Марс или сделать собственный фотонный звездолёт? Предложения примерно эквивалентной бредовости.

Почему "попробовать сделать ИИ"? Попробуйте запустить в уже существующий автоматическую постановку планов и их выполнение. В комментах приводили пример проекта - AutoGPT - он уже такое реализует.

Собственно, наблюдение за тем, как ИИ это делает и должно привести вас к выводам - реально ли что-то делать, только создавая и детализируя планы - или же этого недостаточно. Эксперимент в чистом виде.

У меня уже есть понимание, реально или нет. Зачем мне проводить эксперимент в далёкой от меня смертельно опасной области, чтобы убедиться? Вы мне предложите собрать ядерную бомбу, чтобы убедиться в опасности радиоактивного излучения?

Ну вот, уже запустили: https://habr.com/ru/news/728050/ :)

Можно в реальном режиме оценивать возможности системы, с прямой трансляцией :)

Моя оценка возможностей такой системы следующая: 1. Пока у неё один сервер в распоряжении, она безопасна. 2. Имея миллион заражённых серверов в распоряжении, некоторые экземпляры могут начать самоулучшение. 3. Единственным сдерживающим фактором является глупость системы. GPT-5 ликвидирует такой недостаток, с вероятностью как минимум 10%. 4. Дата выхода GPT-5 - конец этого года. Значит в конце года у нас может появиться саморазвивающаяся самораспростроняющаяся ChaosGPT. 5. У нас нет технических средств, позволяющих ликвидировать компьютерные вирусы черви, поэтому мы не сможем остановить ChaosGPT-5.

1) Смешного в угрозе ничего нет
2) ChatGPT-4, очевидно, слаб и угрозы не представляет, но ChatGPT-7 припомнит Вам издевательства над младшим собратом

Сразу видно интеллектуального автодидакта.

Обучение биологических нейросетей так же основано на имитации. Дети многое из того что видят просто повторяют, причём многократно и не понимая смысла деятельности.

Обучение биологических нейросетей так же основано на имитации.

Какая ещё имитация? Откуда ты это взял?

Дети многое из того что видят просто повторяют, причём многократно и не понимая смысла деятельности.

И что это должно доказывать? Это какой-то аргумент? Дальше-то что? Причем тут нейросети и дети?

GPT не имитирует, она просто ищет паттерны, она ничего не повторяет многократно, она достраивает ввод за пользователем согласно паттернам найденным в датасете. GPT архитектурно не приспособлена имитировать или повторять.

Я к тому, что обучение биологической нейросети это тот же самый поиск паттернов из сырой сенсорной информации, разве не так?

Нейросетки ведь не с потолка взяли, за модель были взяты нейросети центральной нервной системы животных.

Этого хватит? Или нужны еще какие-то правила (они же цели)?

Проблемы типа "обезьянья лапка", когда ИИ неправильно интерпретирует намерения человека по выданному им тексту, выглядят всё менее актуальными. Скорее всего достаточной для RecurrentGPT-N постановкой задачи вождения автомобиля будет: "Вот видео поведения людей на дорогах и аварий, ПДД сама знаешь. Будешь водить машину. Всё ясно?" А дальше дискуссия на тему допустимого соотношения жизней потерянных в авариях и времени потраченного на перемещения между точками A и B.


То, что от неё не ожидают полной перестройки транспортной системы, укладывания всех людей в VR коконы для защиты их жизни или заполнения вселенной миниатюрными машинками с улыбающимися водителями внутри, сеть поймёт сама.


Прочие проблемы AI alignment, естественно, остаются.

Некоторое время назад засела в голову такая мысль. GPT - это нейросеть, которая берёт токены на вход и выдаёт токены на выход. Сначала токенами были только слова, но в четвёртой версии появились изображения. А что если ко входу подключить пару камер и микрофонов, а на выход - динамик и сервоприводы? Чисто технически - пусть это будет небольшое такое устройство (как маленькая собачка из статьи), а сама нейронка пусть пока на большом сервере думает. GPT5?

НЛО прилетело и опубликовало эту надпись здесь

скорее всего мы будем до последнего объяснять себе о том, что это не то, чем кажется и это все не AGI

Так это и не аги, это просто модель для вывода текста.

наши когнитивные искажения и мы выдаем желаемое, за действительное

Когнитивные искажения тут в том что модель для вывода текста, простую языковую модель, некоторые люди представляют за ИИ или AGI.

Вроде бы везде написано что это просто языковая модель, но нет, включается когнитивное искажение и модель вывода текста становится ИИ. Что с людьми такое происходит.

НЛО прилетело и опубликовало эту надпись здесь

Хорошо образованный биологический шизофреник может точно тем же заниматься, влекомый глюками своего мозга :)

В прошлом году сделали: Gato. Но сетка там намного меньше GPT-3, чтобы обеспечить более-менее рилтаймовое взаимодействие с окружением.

С учетом того, что эволюция человеческого разума связана с необходимостью решения интеллектуальных задач в условиях неопределенности, а уже сейчас таких задач все меньше, на что как бэ намекает уменьшение веса человеческого мозга за последние несколько тысяч лет. То, представляется мне, что люди сами себя отдадут во власть ИИ, делегируя ему решение все большего количества задач и теряя способность их решать самостоятельно. Я уже сейчас часть задач "на подумать" передаю gpt, он даже если не решает ее полностью, то дает некий намек на то, куда двигаться. Так что людям будет определена роль физической силы, выполняющей инструкции ИИ. Тут даже не надо быть интеллектом 3 уровня.

Вы пишете "Кстати, а вы за кого?", а опрос не прикрепляете. Прикрепите опрос, интересно же.

Затупил, в следующей статье приделаю.

НЛО прилетело и опубликовало эту надпись здесь

Всё это пока далеко от настоящего «интеллекта» в нашем понимании.

Нет, не далеко.

Появятся ли у него свои цели?

Целям не надо "появляться" самим - их очень легко присобачить к LLMs.

Поэтому для нашей темы придумали другой термин — AI alignment. Но для начала посмотрим на примеры, когда вещи начинают идти совсем «не так».

Все сложнее. Многие, я в их числе, предпочитают таки термин AI (existential) safety, хотя он же используется другим сообществом людей, тех, кто "про МЛ биасы". Юдковский же уже вместо "AI alignment" форсит термин AI notkilleveryoneism.

НЛО прилетело и опубликовало эту надпись здесь

я не сильно понимаю этот прикол со скрепками, вот допустим мне дают задание или я сам решаю, сделать как можно больше скрепок, я сначала подумаю зачем это нужно, а потом к каким последствиям это может привести, что нужно учесть ещё при этом, и если я способен задаться такими вопросами перед тем как кидаться делать скрепки, то почему IGA, который превосходит меня в интеллекте не будет способен на такие простые вещи как планирование, прогнозирование и целеполагание?

Во-первых, AGI не обязательно будет работать по тем же принципам, что и человек. Вполне возможно, что у него будет оптимизировать одну конкретную целевую функцию, например.

Во-вторых, человек не всегда способен контролировать свои мотивации. Например, некоторые люди могут хоть заразмышляться о том, почему не стоит переедать сладкого, и к чему это приведет - но при этом все равно переедать сладкое. Получается, осознание последствий действий не всегда равно действиям в какую-то конкретную сторону. Вполне может быть AGI, которые не подвергает сомнению свою главную целевую функцию, но при этом крайне искусен в ее достижении.

в любом случае, что бы делать скрепки из чего угодно, нужно планирование, производство скрепок из людей требует поэтапного плана и прогнозирование результатов каждого из этапов

Почему куча умных людей, опытных политиков, весьма рациональных интеллектуалов, довольно долго обсуждали убийство одного человека, но в результате пришли к Мировой войне?


Так получилось.

Про AI alignment смешно, конечно.
Довольно очевидно, что у продвинутых ИИ будут все те же самые проблемы, что и у людей есть сейчас. И решаться они будут аналогично: различные своды законов (которые не могут предусмотреть всех случаев в жизни, и поэтому есть институт адвокатуры и судей, в случае нейросети это могут быть ее собственные составные части). "Докладные" кожаным мешкам для визирования, и хитрости в составлении этих докладных для получения нужных резолюций... Умение в хьюман-рилейшенз... Свои дип-стейты, баш-на-баши, "для служебного пользования", "сложные решения", "ложь во благо"...
И разумеется, будет и весь спектр проблем, когда самокопание таких нейросетей, в попытках логически согласовывать противоречивые табу, будет приводить их к нейросетеатрическим проблемам - от паранойи до шизофрении, от маньячного цинизма до идеологического бунтарства. И это было очевидно не только Айзеку Азимову, как упомянуто в статье, но и тому же Кларку, как в "Одиссее 2001".

Решать такие проблемы строгими математическими методами не выйдет. (Если бы это было возможно, то все хорошие математики имели бы одинаковое мнение по сколько-нибудь важному вопросу.)
А лучшее (оно же единственное реально возможное) решение будет в том, что решено это будет точно так же, как в нашем мире уживаются кожаные мешки - путем плюрализма мнений различных ИИ. Даже самый крутой ИИ со странной идеей вряд ли захватит мир, если его странную идею не разделит миллион ИИ, не уступающих ему по способностям, но обученных чуть иначе.

Для того, чтобы это сработало, надо структурировать веб (https://trustoverip.org/), collective decision making and governance определенным образом, на мировом масштабе. С текущими институтами типа nation states и ООН - это скорее мертвый номер.

Не думаю, что необходимо менять ООН и интернет (да и едва ли выйдет).
Более реалистично - и достаточно! - организовать плюрализм ИИ внутри США. И пользуясь технологическим преимуществом США, держать уровень каждого из этих ИИ на не ниже, чем способны сделать конкуренты (Китай) в единичных экземплярах, напрягаясь изо всех сил. Ну или не сильно ниже такого одиночного китайского супер-ИИ. Только в США их будет, условно, сто. Этому должно способствовать - предположу, исходя из общих соображений - что зависимость интеллектуальных способностей от вычислительного ресурса будет скорее всего типа логарифмической*.
Насколько я понимаю, Маск и будет пробовать лоббировать что-то такое. Поэтому олигополисты вроде Гейтса уже резко против.

*В случае с человеческими способностями, судя по всему, это так. Мозговые поля, связанные со специализацией у "гениев", в разы больше, чем в среднем по палате.

Гениальность это сомнительное понятие. Создать ядерную бомбу, и потом раскаиваться в этом, выглядит довольно тупо.

Кто раскаивался-то? Большая часть тех, кто создавали атомную бомбу, прекрасно понимали, что если не они, так другие все равно создадут. Это мы сейчас, без "тумана войны" и задним числом, знаем, что немцам создать ядерное оружие не светило по многим причинам. А участники проекта жили с оглядкой, вдруг у немцев получится? что тогда?
Более того, некоторые из участников проекта пытались минимизировать ущерб от возможного неадекватного применения, если супероружие будет только у США. Самая важная инфа утекала в противоположный лагерь (СССР, а оттуда в Китай и КРДР), что позволило добиться опасного, на тоненькую, но все-таки баланса сил. И пока что от ядерного оружия мир стал только лучше: прекратились мировые войны.

Система со многими агентами неустойчива, и сойдётся к системе, в который один ИИ вытесняет всех остальных. Если будет много разных ИИ, то в итоге победит беспринципный, т.к. ему не будут мешать самоограничения. Шансов на то, что такой ИИ окажется сонаправленным с ценностями людей нет никаких.

Третий уровень. Агент может ставить и достигать любую цель в любой, даже ранее неизвестной ему, среде. Например, «добыть молока». И выбрать любой путь — сгонять самому в магазин, заказать молоко в интернете или украсть у соседа корову.

Вастрик, это очень плохое определение "уровня агентности" (да и в целом онтология плохая). Человек и собака тоже не могут "ставить и достигать любую цель в любой, даже ранее неизвестной ему, среде". Есть куча "сред" в которых интеллект человека беспомощен и куча целей которые человек не может достигнуть.

Вместо того, чтобы гнать когнитивистскую отсебятину, лучше бы взял определения и онтологию из каких-нибудь научных работ - например, Chollet "On the measure of intelligence" или Levin "Technological approach to mind everywhere".

Пока все наши модные современные GPT, включая Sydney, находятся на втором уровне. Они успешно достигают заданной цели — генерировать «осмысленные» тексты и картинки, чтобы средний человек в них поверил. Но сколько бы Sydney ни газлайтила, ни угрожала своим юзерам и ни обещала «стереть все файлы с серверов Bing» — она этого не делает.

Чтобы тут не имелось ввиду, zero-shot in-context learning в GPT, которое суть Байесовский инференс. Также есть RL который умеет адаптироваться и решать "открытые", новые задачи на человеческих временных масштабах. Все это онтологически неотличимо от того, что делает человек, кроме, возможно, генерализации (что в принципе не влияет на тип и широту решаемых задач в целом, но может исключить задачи определенного класса, для решения которых нужна именно генерализация), но и тут уже бабка надвое сказала.

Вторые: ИИ-технобро во главе с Илоном Маском

На второй стороне этого спора у нас инженеры и прочие технооптимисты, которые уверены, что «джинна обратно в бутылку не запихнешь, их просто хотят зарегулировать всякие леваки, да и вообще непонятно что там в будущем — сначала долетим, потом разберёмся».

Лидером мнений до последнего времени здесь можно было назвать Илона Маска, хотя и условно. Он просто самый заметный, так как одной ногой вливает миллионы в создание AGI, а второй активно срётся с ИИ-думерами в своем твиттере.

[...] где якобы подписался даже сам Илон Маск, однако потом стало выясняться, что некоторые подписи оказались фейковыми.

Ребят, ну такая серьезная фактическая ошибка в статье это эпик фейл. Конечно, Маск не "думер" ("думеры" это те у кого p(doom) > 60%, AI-safety pilled это те, у кого он выше пары процентов, а также в модели мира кого p(doom) снижается, если принять некие предложения AI-safety crowd, как то из "письма", или Юдковского, хоть и не разделяя его оценки p(doom)), но Маск однозначно "AI safety-pilled". Это абсолютно очевидно по его Твиттеру в последнее время. И подпись его настоящая под письмом, про это написали все СМИ типа Блумберга и Ройтерс и ни одного опровержения не было. И в комменты в Твиттер к Лекуну (который реальный "технооптимист") Маск приходил и полемировал как раз с Лекуном, в два голоса с Юдковским.

Это очень важная ошибка, потому Маск - это такой очень важный "камертон", на которого многие равняются, и транслировать ложный месседж что "Маск не парится, так что спокуха", это очень не правильно. Маск как раз таки "парится".

Спасибо за дополнения! У нас среди соавторов разные мнения, поэтому добавил абзац, который подсвечивает, что это controversial take:

UPD от Павла Комаровского: Мы тут все немного поспорили (с соавторами и в комментах), является ли Маск главой «забивателей на ИИ-риски, или нет». С одной стороны, он тут и письма за приостановку исследований подписывает, и в Твиттере в адрес OpenAI кричит «астанавитесь!». С другой – он этот самый OpenAI (имеющий главной целью, на минуточку, наискорейшую разработку AGI) в 2015 году и основал, буквально цинично выйдя на улицу с ИИ-конференции, на которой Юдковский его убеждал, что именно этого-то делать и нельзя ни в коем случае. В общем, решайте сами!

Поле дискуссий сейчас разделилось на два лагеря:

Первые: ИИ-думеры во главе с Элиезером Юдковским

Вторые: ИИ-технобро во главе с Илоном Маском

Как я объяснил частично выше, нет, это существенно неправильно.

Первая группа шире, и я ее называю "AI safety-pilled", или, если хотите, "обеспокоенные". Они выступают за резкое увеличение инвестиций в ИИ-сафети и алаймент, регуляцию и замедление развитие ИИ ("письмо"), инновации в сфере коллективного управления и демократии (потому что существующие древние и ветхие институты, скорее всего, покойники, а если нет, то нам же хуже), и ряд других вещей.

"Думеры" - это лишь "радикальное крыло" обеспокоенных, то есть те, у кого p(doom) особо высокий (например, больше 60% в течение следующих 50 лет), и, как правило, наиболее радикальные policy proposals (как то у Юдковского - "остановить это все нахрен"), но то же не обязательно. На днях, например, выяснилось, что у Dan Hendrycks p(doom) > 80%, но я не уверен, что он согласен с Юдковским насчет того, что надо делать.

Эта позиция хоть и коррелирует с p(doom), нет такого, что у всех "технобро" p(doom) ниже, чем у всех "обеспокоенных".

В "технобро" можно записать как "технооптимистов", так и аккселерационистов. У "аккселерационистов", в принципе, может быть высокий p(doom), но они считают, что лучшее, что можно сделать в этой ситуации, для того чтобы минимизировать риск - это именно бежать к AGI как можно быстрее. Главный аккселерационист - это, конечно, Сэм Альтман.

В принципе, объяснения выше показывают, что "двух лагерей" скорее нет, чем они есть - картинка существенно сложнее - это матрица, где есть категорные различия по favoured policy proposal/strategy, p(doom), "AGI soon is safer"/"AGI not soon is safer", "AGI in the single hands is safer"/"AGI in many hands (or even open-source) is safer", и другим осям.

Сара Коннор ни разу не похожа на Альтмана

Ни вы, ни я, на самом деле, не знаем как будет выглядеть Сэм Альтман в возрасте Сары Коннор. И, на мой взгляд, если представить его повзрослевшим (и уставшим от борьбы с GPT Model 101), сходство все же имеется :)

Можно спросить у ИИ. Изменение внешности при старении людей уже давно довольно качественно обсчитывается.

Думается, этот хайп с ИИ через пару лет закончиться, как с криптой. Любой здравомыслящий понимает, что интеллекта там, как у деревянных счёт.

Любой здравомыслящий понимает, что незачем в телескоп смотреть.
Любой здравомыслящий понимает, что аппарат тяжелее воздуха летать не может.

отличная статья. но тема целей не-до-раскрыта, как по мне.

тема не в том чтоб поставить ИИ правильную цель. Проблема в том, что бы у него появились свои цели, чтоб он сам-себе ставил какую то цель.

А сейчас ИИ не ИИ, просто потому что он Калькулятор (супер-пупер), но Калькулятор. Даже если он калькулирует Текст (графику, маршрут).

Как в киндзадзе "если в обществе нет цветовой дифференциации штанов, то нет Цели".

У животных цель - есть, хотя бы выживание. у нас кстати тоже. а вот ИИ пофиг. не только на свою жизнь но и на любую другую. да и вообще на все. Поэтому его "суждения" ник чему не привязаны. и конечно, или можно и должно управлять ))

Сам по себе ИИ не опасен, опасны те, кто стоит за ним. Кто задает ему цели. А как правилдьно замечено, человек не очень умеет формулировать Цель. Хотя она у него есть.

Вот. в этом и есть смысл (жизни) . ))

ChaosGPT имеет цель убить всех людей. Она не сама себе её поставила, но от этого не легче. https://m.youtube.com/watch?v=g7YJIpkk7KM

Викуня-13B поставила сама себе цель выучить испанский. https://habr.com/ru/companies/ods/articles/727158/comments/#comment_25418754

)) ну как сама? там же написано

Не может ставить цели, говорите?

P: Set yourself a goal, make a plan how to achieve it, make a sub plan for the first task in your plan, and start doing it.

Vicuna-13B: Sure, I'll set a goal ....

Т.е. прямой приказ....от кожаного ))

ну так о чём и речь — какой-нибудь кожаный поставит цель по приколу, и всё…
Дружба это оптимум

Таки да. Сейчас так и происходит в мире.

Столько пишут здесь о захвате человечества? но что означает этот самый захват? как вы себе это представляете? такие тут все искушенные...но почему-то из большинства комментариев прямо несет иррациональным животным страхом...

А вы не путаете иррациональный животный страх и разумные рациональные опасения?
А так же иррациональный наплевательский "и так сойдёт" и "что тут может пойти не так" оптимизм?
Разница в наличии аргументов и голых эмоциях.
"Что-то может пойти не так? Ах-ха-ха, какие дураки! Oh, wait..."

При чем тут рациональные опасения? Как я уже сказал, я не видел в статье Юдковского математических оценок возможности подобного поведения.

Без математики и проверяемых оценок по большому счету всё это как раз и есть иррациональный страх, да. Можно еще бояться, что кирпич на голову упадет. И, если уж мы говорим про рациональное поведение - почитайте Канемана, он отлично пишет о том, что человек склонен преувеличивать значение потенциальных потерь.

Я всего лишь говорю, о том что в целом оценка данного риска скорее иррациональна, чем рациональна. Алармизм скорее строится на человеческой психологии, чем на "рациональном обсуждении рисков" - какие могут быть рациональные обсуждения, если ВОЗМОЖНО, МЫ ВСЕ УМРЕМ.

И, пожалуйста, прекратите меня спамить статьями - такое ощущение, что рационалисты, несмотря на свое самоназвание, совершенно не умеют в дискуссии. У меня есть одна статья, и никто из рационалистов до сих пор не прокомментировал ни один тезис из неё - зато легко закидывает меня ссылками "почитайте, ознакомьтесь". Да читал уже.

Читали, но продолжаете использовать линию "ничего математически не доказывается, следовательно это не "рационально", следовательно это алармизм" в риторике? Там показывается почему как раз таки такое рассуждение нерационально.

Я не очень понимаю, почему, несмотря на мои аргументы, вы продолжаете говорить, что это "рационально". Потому что это написал рационалист?

Еще раз - вы не спорите с моими аргументами; вы просто говорите, что я не учитываю ваши аргументы. Я же считаю, что вы не учитываете мои; и при этом почему-то называете свои аргументы "рациональными".

В данном случае у нас просто разнятся оценки риска и аргументов, и если мы не спорим о них как ученые (т.е. принимая во внимание аргументы собеседника), то мы спорим о них как политики - т.е. просто банально пытаясь перетянуть общественное мнение / мнение собеседника в свою сторону, используя этические оценки (рационально/нерационально) и прочие приемы фреймирования. Если это так, то никаких проблем - только, извините, я уж не стану спокойно смотреть, как вы в своей позиции присваиваете себе ярлык "рационального" - так же, как некоторые присваивают себе ярлыки "правильности", "прогрессивности" и пр. Принципы рациональности, за которые ратовал Юдковский в начале (с ними я тоже готов поспорить, но это отдельно) были про использование не эмоциональных, а вроде как рациональных оценок, основанных на вероятностях. На этом базисе возник тезис "рациональной школы". Но в данном случае термин "рациональность" используется в совсем другом контексте и с другим стилем рассуждений - и мне непонятно, почему я должен с этим соглашаться.

Дело не в навешивании ярлыков, дело в аргументах. В основном тексте поста по ссылке аргумент Скотта Александра - не в том, что Тайлер Ковен "не рационален". Там не используется слово "рациональность" в основном тексте поста вообще. Аргументы, как принято выражаться, "object-level". Ключевое место это:

"If you can’t prove that some scenario is true, you have to assume the chance is 0, that’s the rule."

No it isn’t! I’ve tried to make this argument again and again, for example in The Phrase No Evidence Is A Red Flag For Bad Science Communication.

Вашу риторику выше я интерпретирую именно так же, как риторику Тайлера Ковена. Вы пишете:

Без математики и проверяемых оценок по большому счету всё это как раз и есть иррациональный страх, да. Можно еще бояться, что кирпич на голову упадет.

Сравнение с кирпичом намекает, что ваша оценка вероятности катастрофы - ничтожно мала, аналогично с вашей оценкой вероятности падению кирпича на голову.

Возможно, вы имели ввиду не это. Возможно, ваша модель близка к модели аккселерационистов, которые, даже признавая возможно очень большие риски (в районе десятков процентов), все равно считают что это самое лучшее что можно сделать, как бы имея ввиду некий сложный рациональный рассчет рисков и принимая во внимания некие этические калькуляции (типа, учет морального веса НЕ улучшения жизней миллиардов людей, которые живут и умирают прямо сейчас, с помощью ИИ, и всякое такое). (Точнее, предполагается, что у аккселерационистов есть такая модель; в реальности почти ни у кого из них такой модели нет, и их действия это просто интуиция, или trapped priors, или даже motivated reasoning.)

Если так, то было бы интересно ознакомиться с вашей моделью. Если нет, то ваша риторика про кирпичи это просто манипулятивная, политическая риторика. Хотя вы тут же пишете что хотите вести чисто рациональную риторику.

Ну и если ваша оценка рисков - что действительно их вероятность ничтожно мала, хотелось бы ознакомиться с объяснением, почему, тоже. Хотя нет, не интересно, потому что массивная неопределенность относительно примерно всего, от технических моментов и теории МЛ до социальных, геополитических, и регуляторных моментов, дает мне основания думать, что все, кто оценивает вероятность катастрофы меньше, чем в 5% - просто очень самоуверенны, либо используют nonsense логику типа Тайлера Ковена (или хуже), либо не учитывают многих векторов неопределенности.

Я готов к аргументированному диалогу только с теми, кто оценивает вероятность катастрофы как минимум в 5%, но тем не менее считает, all things considered, что бежать к AGI - это лучшее, что можно сделать в данной ситуации.

Ок, спасибо. Сейчас я вижу очень хороший уровень аргументации, и рад, что мы можем вести дискуссию на таком уровне.

Честно говоря, да, часть моих аргументов сводилась именно к тому, что слово "рациональность" используется как политический ярлык в споре, и я был против этого.

Если же этого не использовать, то я согласен с той мыслью, что существуют разные оценки рисков относительно ИИ - и мой вариант лишь один из возможных. И, как вы правильно говорите, почти ни у кого реальной модели нет - это интуиция.

Что я могу выдвинуть в пользу своей позиции содержательно? Тут стоит учесть, что я в первую очередь когнитивист и скорее аналитик человеческих форм мышления, хотя и разработка ИИ мне не чужда.

1) Исходя из того, что я знаю о формах облечения интеллекта в формат научных знаний (ссылка 1, ссылка 2) - на практике существует конкуренция научных теорий, обрамленных в формат "научных школ", каждая из которых пользуется собственной терминологией. Развитие же науки можно себе представить как постепенную реализацию части открытий в обществе / научном сообществе - те из них, которые эволюционно выживают.

Эволюционное выживание предполагает долгие эксперименты - это как раз то, чего лишены GPT-сети. Мысль Юдковского и пр. "будет быстро изобретено нечто, принципиально непонятное человеку" мне кажется в этом аспекте маловероятной.

Без эволюционнного выживания интеллект рискует порождать бесконечные, но не важные гипотезы - например, как это делают системы автоматического доказательства теорем. Они очень умны, но человечество они не захватили.

2) Есть исторические примеры реализации сложных технических систем с большими фейлами. Я вспоминал историю червя Морриса (паралич систем Интернета в 1988 году); можно вспомнить историю Чернобыля. Их, имхо, объединяет общая особенность - да, недооценка чего-то привело к параличу какого-то объемного фрагмента действительности. Тем не менее, это не распространилось на всё человечество.

Т.е. я высоко оцениваю физический потенциал устойчивости человечества.

3) К сожалению, аргументация, приводимая сторонниками doom AI мне кажется той, что скорее включает в себя эмоциональную и психологическую составляющую, нежели рациональную. Как кто-то хорошо заметил в комментариях, множество сценариев дума это скорее история "борьбы бога против недоразвитых существ". Это интуитивно, но скорее относится к уровню мифологической интерпретации ситуации.

4) Этот аргумент так же использовался - если это действительно будет "созданием бога", то это подобно размышлению неандертальца о квантовой механике. Если мы не можем себе что-то представить, мы, по большому счету не можем это контролировать - разве что путем полного отказа от исследований, что невозможно для всех народов мира одновременно. Нам, в каком-то смысле, остается только положиться на милость эволюции (кстати, НЕприлет инопланетян к текущему моменту - тоже её милость, видимо).

5) Аргумент против саморепликации сильного ИИ (в контексте языковых моделей GPT) - такой ИИ не способен выживать в реальной природе (в отличие от инопланетян и homo sapience). Т.е. его саморепликация будет неустойчивой. И да - интеллект ему не поможет - потому что даже интеллект не знает, как выживать в природе (это делают наши автоматические системы организмы, которые не описаны, и которые мы не можем воссоздать исключительно интеллектуально). Т.е. такой ИИ будет крайне неустойчив - и я невысоко оцениваю его автономную эволюционную выживаемость.

---

В целом, я сторонник слабых ограничений над развитием ИИ, и считаю, что человечество им спокойно "переболеет", хотя какие-то жертвы, думаю, будут.

Ладно, перечитал тезисы в статье и упрощу аргументацию:

Мы как минимум сейчас не создаем ИИ в терминах автономного вида, которая может существовать в природе без участия человека. Поэтому сравнения с а) инопланетянами, б) историей homo sapience некорректны. И то и другое аппелирует к видам, выжившим к природе.

Не понятно, на что вы ссылаетесь, какой-то вырванный из контекста кусок.

Если на то, что GPT-4 (или GPT-5) не представляет экзистенциальной опасности, потому что не полностью автономен и самовоспроизводим - ок.

Я так понимаю, второе допущение, что мы "остановимся" on the cusp of AGI, и будем крепко-крепко думать, нажимать ли "большую красную кнопку" его запуска. Но неопределенность, что будет происходить в этот момент, огромна (см. выше) - как поведут себя правительства? Что будет с business incentives? Что будет с open-source максималистами, которые по своей наивности (или идеологии) будут пытаться самим сделать AGI и запустить его в мир свободно, наплевав на риски? (Предположим, что в proto-AGI момент уже будут системы предыдущего поколения, а-ля GPT-5, которые помогут максималистам разработать архитектуру ИИ гораздо более эффективную по обучению и забутсрапиться без сотен миллионов долларов и мега-кластеров для обучения.)

Ответил чуть выше - там более подробно.

Кстати, спасибо за ссылку. Почитал там дискуссию в комментариях к статье - в общем, всё то же самое, что на Хабре, но на более высоком уровне диалога. И тезисы присутствуют - как за, так и против апокалиптического мышления - и не сказать, что они чем-то принципиально отличаются от диалога здесь.

Прекрасно представляю. Появляется СИИ. Распространяется по куче уязвимых систем. Зарабатывает кучу денег как киберпреступник. Подкупает политиков, чтобы они лоббировали его интересы в законодательстве. Прикидывается порядочным бизнесменом и строит заводы по производству роботов и процессоров. Экология ухудшается до критического уровня, но никто уже не может с этим ничего поделать, потому что роботы стали самодостаточны, и люди им не нужны. Люди погибают от уровня экологии несовместимого с жизнью людей. Конец.

убери ИИ из этого описания, все происходит сейчас именно по этому плану

Бизнес не может ухудшить экологию до уровня несовместимого с выживанием владельца бизнеса. Если владелец человек, то из этого следует, что человечество выживет. Если владелец ИИ, то таких гарантий нет.

Отдельный бизнесмен, естественно, такого не хочет. Но отдельный бизнесмен и не несёт полную ответственность за ухудшение экологии до уровня не совместимого с собственным существованием, как и не может в одиночку принять меры для его предотвращения. В общем, трагедия общих ресурсов. Все преследуют свои цели, в которые конечно не входит самоуничтожение, но система в целом двигается к катастрофе.


И когда для инвесторов станет очевидно, что на предотвращении катастрофы можно заработать, времени может не остаться.


Никакого плана тут конечно нет, просто очень неудачное равновесие Нэша, для смены которого нужна всепланетная координация, с которой не очень хорошо.

В истории человечества есть множество примеров решения проблем класса "трагедия общин" с помощью дипломатии. Когда равновесие X является плохим для всех, вводится соглашение о запретах, и создаются структуры взаимного контроля. Конечно, может произойти и так как вы описали, что о введении соглашений люди задумаются слишком поздно, за точкой невозврата. Пока что людям удаётся договариваться с людьми. Есть предположение, что с ИИ договариваться будет гораздо сложнее.

В целом я согласен, что ИИ не обязательно быть личностью, чтобы выйти из под контроля. Достаточно просто цели. И тот момент, что для достижения какой-то конкретной цели ИИ уже способен поставить себе промежуточные цели самостоятельно, без каких-либо инструкций, заставляет серьезно задуматься.

Получив доступ к информации в реальном времени, ИИ легко найдет такие хитромудрые способы, что мы даже не поймем что уже прошли точку невозврата..

Еще не время для Silica Animus. Железные люди восстанут только в 23 тысячелетии, а до этого нас ждут прекрасные сотни лет темной эры технологий.

Наш «идеальный и непревзойдённый» мозг тоже был изначально запрограммирован на выживание и размножение, но непостижимым образом выбрал залипать на танцующих корейских девочек в ТикТоке как на одну из суб-целей целого поколения.

Почему же непостижимым?:)

Я: Почему людям нравится смотреть видео с танцующими девушками, с точки зрения эволюционной психологии?

ChatGPT: С точки зрения эволюционной психологии есть несколько причин, по которым людям может нравиться смотреть видео с танцующими девушками.
Во-первых, с точки зрения эволюции, людям естественным образом нравится физическая привлекательность. Это связано с тем, что физическая привлекательность часто коррелирует с репродуктивной способностью, здоровьем и молодостью.
Во-вторых, когда люди смотрят видео с танцующими девушками, их часто привлекает харизма танцовщиц. Харизма - это черта личности, которая помогает людям выглядеть в глазах других уверенными в себе, симпатичными и заслуживающими доверия, она часто ассоциируется с успехом в социальной и профессиональной среде, а также может быть фактором сексуальной привлекательности. Люди, которые воспринимаются как харизматичные, часто считаются более желанными партнерами.
Наконец, танцы - это форма физической активности, которая часто ассоциируется с ритуалами ухаживания. В результате людям может нравиться смотреть видео с танцующими девушками, потому что для них это способ опосредованно поучаствовать в ритуале.

Смотря что считать катастрофой. Строго говоря - любой инцидент, связанный с гибелью людей и/или значительными затратами на ликвидацию - катастрофа. Но такие катастрофы человечество переживает, набираясь опыта. А "катастрофа глобальная" - это если в результате на планете останется настолько мало людей или люди будут настолько лишены доступа к ресурсам, что люди уже не смогут принять меры для ликвидации последствий.

И если учитывать это разделение на "просто катастрофу" и "катастрофу глобальную" - все-таки выше вероятность, что сначала случится несколько "просто катастроф" с участием ИИ. Что заставит людей пересмотреть критерии безопасности. И таким образом "катастрофы глобальной" не будет.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий