divolko3 25 дек 2023 в 14:43

Когда слабый контролирует сильного: у OpenAI есть идея по обузданию мощных ИИ-моделей недалёкого будущего

4 мин

4.2K

Блог компании МТСНаучно-популярноеИскусственный интеллектБудущее здесь

Компания OpenAI с момента своего основания занимается разработкой ИИ-систем, чтобы те приносили пользу человечеству. По плану так должно происходить даже в том случае, если ИИ станет умнее своих создателей. Внутри компании есть несколько команд. Одна из них занимается разработкой мощных ИИ-систем, которые превосходят всё то, что есть у нас сегодня. Но вот проблема — этот искусственный интеллект придётся ещё и контролировать. О том, как это можно сделать, — под катом.

Что и зачем нужно взять под контроль?

По словам Леопольда Ашенбреннера, сотрудника компании OpenAI, который как раз и работает в подразделении Superalignment, AGI мы увидим уже очень скоро. Что это такое?

До настоящего момента и сейчас все существующие варианты ИИ относятся к классу узкого ИИ (ANI, narrow AI), иногда называемому слабым ИИ (weak AI). Такие системы могут решать общие задачи, пусть и достаточно сложные, под управлением человека.

Следующий этап развития ИИ — универсальная система, которая равна или даже несколько превосходит по возможностям человека. Нейросеть такого уровня относится к классу общего (AGI, artificial general intelligence), или сильного, ИИ (strong AI). По мнению экспертов, стадии AGI искусственный интеллект достигнет после того, как у «машины» появится собственная мотивация, умение ставить цели, способность разбивать крупные задачи на мелкие — всё то, что может делать человек.

Ну а последняя (наверное) ступень развития ИИ — это Супер ИИ (ASI, super AI). Такой искусственный интеллект получит возможность выполнять практически любые задачи, требующие задействования мышления, гораздо лучше человека. Вот какое определение даёт ASI Ник Бостром: «ASI — интеллект, который по своим возможностям значительно превосходит умнейших представителей человечества практически во всех областях, включая научное творчество, общую мудрость и социальные навыки. Это определение оставляет открытым вопрос о том, как будет реализован сверхразум: это может быть цифровой компьютер, их совокупность, объединённая в сеть, выращенная в лаборатории мозговая ткань или что-то ещё».

Так вот, пока что у человека нет никаких инструментов контроля за AGI и тем более ASI. А создавать их уже нужно, чтобы в ближайшем будущем не было мучительно больно. Тот же Леопольд Ашенбреннер заявил, что через несколько лет появятся другие формы ИИ, которые могут быть очень опасными, а сдерживать их мы никак не можем. Как вообще контролировать что-то, что умнее тебя самого?

По мнению разработчиков из OpenAI, это можно сделать при помощи двойной системы «Простая модель + умная». Модель более низкого уровня будет управлять поведением продвинутой системы, не оглупляя её, если так можно выразиться.

Прецеденты уже есть — летом 2023 года резко «поглупела» модель GPT-4. Она стала «лениться», иногда не отвечать на вопросы или давать неправильный ответ. Возможно, это произошло после установки дополнительных средств контроля за ответами модели. Их добавили, поскольку раньше нейросеть давала развёрнутые инструкции на вопросы, имеющие отношение к наносимому человеку вреду, наркотическим веществам и т. п. Разработчики сочли за лучшее убрать всё это и ограничить возможность ответов своей нейронки.

Правда, есть и мнение, что модель «поглупела» из-за ограниченного объёма вычислительных ресурсов. В самом начале пользователей было немного, и ресурсов хватало всем. Теперь же желающих пообщаться с моделью миллионы, и здесь уже возникает дефицит производительности.

Но что бы на самом деле ни являлось причиной «оглупления», само оно — факт. Вот пример общения в чате с бесплатной версией GPT:

Это был наш пример, полученный на момент написания публикации. А вот кусок диалога с GPT-4 от начала декабря 2023 года (это уже не мы общались):

Понятно, что такие результаты никому не нужны, поэтому разработчики из OpenAI и создают инструменты контроля, которые не сделают ИИ более «глупым» или «ленивым». Так и получилось, когда эксперты заставили более сильную модель следовать «указаниям» слабой. Производительность сильной модели при этом снизилась, но совсем немного. Правда, специалисты заявили, что гарантии того, что AGI, не говоря уже об ASI, будет работать с таким инструментом, нет. Но первые результаты появились, и это может служить основной для дальнейшей разработки.

Вполне возможно, что AGI решит игнорировать какие-то из указаний слабой системы, выйдя таким образом из-под контроля. Чтобы такая схема была полезной, требуется достичь определённого уровня согласованности работы моделей.

Кстати, есть и специалисты, которые не согласны с тем, что метод «слабая + сильная» модели является эффективным. Стюарт Рассел, профессор Калифорнийского университета в Беркли, занимающийся вопросами безопасности ИИ, говорит, что идея использования слабой модели ИИ для управления более мощной существует уже давно. Он также утверждает, что до сих пор этот метод не смог обеспечить надёжное поведение существующих моделей.

Помощь со стороны

Несмотря на то, что сама OpenAI работает над созданием методов контроля продвинутых моделей будущего, она приглашает к сотрудничеству и сторонних специалистов. Так, OpenAI вместе с Эриком Шмидтом, экс-гендиректором Google, предлагает 10 млн долларов США экспертам, которые смогут добиться успехов в таких отраслях, как контроль «от слабого к сильному», интерпретируемость моделей и защита их от промптов, способных нарушить установленные разработчиками ограничения.

Похоже на то, что больше всех вопросом контроля над мощными моделями будущего озабочен Илья Суцкевер. Именно его команда пытается разработать набор отказоустойчивых процедур для создания и контроля этой будущей технологии. OpenAI заявляет, что выделит пятую часть своих огромных вычислительных ресурсов на решение этой проблемы и найдёт выход примерно за 4 года. Хотелось бы надеяться, что так всё и получится.

Теги:

Хабы:

Когда слабый контролирует сильного: у OpenAI есть идея по обузданию мощных ИИ-моделей недалёкого будущего

Что и зачем нужно взять под контроль?

Помощь со стороны

Публикации

Информация