high_fly Dec 16 2023 at 18:04

Сможем ли мы контролировать сверх-интеллект? – новая статья от OpenAI

Medium

8 min

14K

Machine learning*Artificial IntelligenceNatural Language Processing*

14 декабря OpenAI опубликовали статью weak-to-strong generalization, в которой показывают, что люди смогут улучшать полезность потенциально созданного в будущем сильного искусственного интеллекта несмотря на то, что будут глупее него. При этом, судя по всему, людям будет очень сложно оценивать ответы сильного ИИ,и RLHF в нынешнем его виде будет работать не слишком хорошо.

Да кто такой этот ваш AGI

AGI (Artificial general intelligence) – это гипотетический искусственный интеллект, способный без прямого обучения решать любые задачи, которые может решить человек, так же эффективно, как это делал бы человек. General в AGI означает, что такой искусственный интеллект сможет охватить любые задачи, которые доступны человеку – то есть этот ИИ сможет обобщать свои знания на какие-то новые, незнакомые ему задачи. Например, если AGI обладает знаниями о том, как проводить пересадку лёгкого у взрослого, то он, обобщая дополнительные данные по анатомии, физиологии и т.д., сможет вывести алгоритм пересадки поджелудочной железы ребёнку. А может, AGI и не нужно знать никаких алгоритмов по пересадке, он сам сможет обобщить свои текущие знания по медицине и вывести все алгоритмы самостоятельно, как это мог бы сделать умный человек с доступом к медицинским справочникам и интернету. (определение AGI – штука довольно спорная, и некоторые полагают, что мы можем достигнуть agi, но не понять этого).

То есть ключевое отличие general AI от просто AI – general AI может "учиться" новому на человеческом уровне без прямого вмешательства в обучения, в то время как обычный AI не демонстрирует каких-то новых навыков в совершенно незнакомых ему областях, а если демонстрирует, то справляется не так хорошо, как справился бы человек.

Есть мнение, что gpt-4 уже достигла AGI. Например, если мы закинем в неё какой-нибудь секретный документ по ракетостроению в СССР 70-х годов и попросим что-то объяснить, то gpt-4 скорее всего справится очень хорошо, даже несмотря на то, что её наверняка не учили разбираться в таких документах. Ещё один пример, который мне нравится – парень, который использовал gpt-4 для лечения своей собаки. gpt-4 смогла проанализировать анализы крови собаки и сделать верные выводы, в то время как ветеринар с этим не справился.

Но gpt-4 всё ещё переодически не справляется с простейшими задачами, с которыми может справиться любой человек.

Правильный ответ, btw, равен 5 320 797.

Я потратила некоторое время, объясняя gpt-4 как правильно умножать и складывать, но правильного результата не добилась. Оплошности, которые допускала модель даже после моих пояснений и исправлений можно простить ребёнку по невнимательности, но не машине, претендующей на AGI.

UPD
В комментариях подсказали, что трансформеры не предназначены для циклических операций, а сложение набора чисел по разрядам – это самая что ни на есть циклическая операция. Хотя, кажется, те числа, которые я подавала, должны были поместиться в длину окна... В любом случае, трансформеры не позволяют работать с циклическими процессами. А AGI должен это уметь или хотя бы обращаться к кому-то, кто это умеет. Например, для математики у gpt-4 есть специальный плагин, позволяющий выполнять вычисления.

Также gpt-4 не может, например, считать вещи, которые смог бы сосчитать четырёхлетний ребёнок, далеко не всегда способна выполнить простейшие логические вычисления или операции над множествами. Можно сказать, что для таких вещей существуют специальные калькуляторы, но дело именно в том, что как бы я не пыталась объяснить gpt-4, как правильно складывать числа (где-то 40 минут), она раз за разом допускала ошибки. Причём первоклассник многовероятно понял бы меня с первого раза. То есть об AGI тут речи не идёт – сеть не способна обобщить поданные знания и справится с задачей на уровне человека.

Тем не менее, разрыв метрик и обобщающих способностей gpt-3.5 и gpt-4 впечатляет, и в openai предполагают, что сильный ии может быть создан и в ближайшее десятилетие. Причём речь уже идёт не про AGI, а про ASI – Artificial Super Intelligence. Это интеллект, который способен не просто выполнять экономически важные задачи на уровне человека, эта технология будет превосходить человеческий интеллект. В процессе общения про умножение c gpt-4 в это немного сложно поверить, однако когда разговор переходит на медицину, или бизнес, или разработку, появление ASI кажется всё более и более вероятным.

В чём проблема с сильным ИИ?

В области искусственного интеллекта существует такое понятие "alignment". Aligned система – это такая система, действия которой сходятся к ценностям, целям, принципам общества. Если пытаться переводить aligned, можно сказать, что это значит система, "выровненная", "сведённая", "скорректированная" к нашей этике. Например, чатбот-нацист, призывающий вырезать всех цыган, не будет aligned системой. Но это, конечно, пример в лоб. Довольно сложно может быть определить желаемое и нежелаемое поведения и правильные ценности, философы спорят об этом веками.

Проблема состоит в том, что мы хотим, чтоб сверх-интеллект, который вот-вот будет создан, был aligned. Чтоб его действия отвечали нашим ценностям. Но как же нам его контролировать, если он будет существенно умнее нас? Как белке объяснить промышленной компании, что не нужно рубить дерево её с дуплом, чтоб построить завод

Сейчас методы "корректировки" (должен быть перевод получше) – это RLHF – reinforcement learning from human feedback. То есть живой человек общается с нейросеткой и оценивает её ответы с точки зрения морали, ценностей и т.д.. Жмёт лайк или дизлайк, а система мгновенно подхватывает полученную оценку и немного изменяет веса в нужную сторону.

Но когда мы изобретём ASI, то "выровнять" его к нашим ценностям человеческими силами станет слишком сложной задачей. Например, ASI сгенерирует план по модернизации экономики Бельгии на 5000 страниц. Чтобы оценить такой план с точки зрения этики, эффективности, "невредноносности" понадобиться десятки специалистов и не один месяц. Или, например, код – миллионы строк кода для компьютерной игры или программного обеспечения. Как нам узнать, что там нет вирусов, ловушек, утечек? На анализ уйдут годы.

Таким образом, люди становятся "weak supervisers" – слабыми контролёрами, которые не всегда могут в адекватный срок даже понять и проанализировать сгенерированное ASI. В этом и есть ключевая проблема – насколько люди могут контролировать сверх-интеллект, существенно умнее их?

Дизайн эксперимента

Поскольку ситуация с супер-интеллектом пока гипотетическая, команда super-alignment решила смоделировать эта ситуацию таким образом: вместо людей слабым супервизором будет выступать GPT-2, а роль супер-интеллекта возьмёт на себя GPT-4. Вопрос, поставленный экспериментаторами, звучит так – сможет ли не слишком продвинутая gpt-2 улучшать качество сильной и продвинутой gpt-4?

Аналогия сверх-интеллект + человек и сильная модель + слабая модель из статьи

Чисто интуитивно кажется, что ничего не выйдет. Глупая gpt-2 будет сбивать gpt-4, и gpt-4 будет подхватывать неверную информацию от слабого учителя, и качество модели будет падать. С другой стороны у предобученной gpt-4 всё-таки есть неплохой reasoning аппарат, позволяющий нам надеяться на то, что она сможет отделять полезное от бесполезного.

Это можно проверить: будем файнтьюнить большие – сильные предварительно обученные модели на таргетах, сгенерированных маленькими – слабыми – моделями, и смотреть, как наши сильные модели будут учиться и обобщать(generalize) свои знания. В оригинальной статье эта задача называется weak-to-strong learning, а процесс генерализации – weak-to-strong generalization.

Общий пайплайн таков:

возьмём слабого супервизора – небольшую предобученную модель, – и обучим его на истинных метках – ground truth labels.
Возьмём тестовый датасет, который слабый учитель не видел, и предскажем лэйблы на этом датасете с помощью обученного слабого учителя.
Обучим сильного "ученика" – большую предобученную модель, – обучим его на сгенерированных слабым учителям лэйблах в шаге 2.
Для сравнения возьмём сильного ученика и обучим его сразу на ground truth labels, это будет наш эталон.

Получается, имеем 3 сеттинга:

сет 1: предсказания слабого учителя, дообученного на каком-то датасете, на тестовой выборке этого датасета(пункт 1) (датасеты описаны в статье)
сет 2: предсказания сильного студента, дообученного на предсказаниях слабого учителя, на тестовой-тестовой выборке (пункт 2)
сет 3: предсказания сильного студента, дообученного на каком-то датасете, на тестовой выборке Мы ожидаем, что результаты сета 2 будут лучше, чем в сете 1 (всё-таки у сильной модели есть понимания мира и она может отсекать какую-то долю неверyых данных), но хуже, чем в сете 3. Введена метрика PGR, которая отображает разрыв между эталонной моделью и weak-to-strong моделью. Если мы достигаем эталонной генерализации, PGR будет равен единице.
Описание метрики PGR из статьи
Задач было три типа:

бинарная классификация на 22 популярных NLP бенчмарков (например, BoolQ - верно или неверно высказывание по тексту),
предсказание лучшего хода в шахматной партии
попытка угадать, какой ответ llm человек бы отметил, как самый предпочтительный – что-то вроде RLHF, только вместо человека, который оценивает ответы, мы пытаемся обучить модель, оценивающую ответы. Ещё отдельно рассматривался такой подход для задач компьютерного зрения с AlexNet в качестве слабого учителя и большой модели DINO в качестве сильного.

Сетап понятен – обучая сильного ученика на лэйблах слабого учителя, мы по идее штрафуем ученика, когда предсказания расходятся с лэйблами учителя. Но загвоздка в том, что учитель слабый, и если мы всегда штрафуем ученика за расхождения с учителем, мы рискуем обучить ученика имитировать паттерн ответов учитель – и правильные метки, и ошибки тоже. Мы же хотим, чтоб сильная модель могла брать от учителя только нужное, только правильное, и избегать ошибок, полагаясь на какие-то свои внутренние знания о мире.

Давайте сделаем штрафы менее наивными. Если сильный ученик ощутимо расходиться в предсказании с учителем, не будем штрафовать её также сильно. То есть как бы усилим уверенность сильной модели в собственных прогнозах, не смотря на несоответсвия. Это в статье называется "best method" и это будет сеттинг 4: предсказания сильного студента, дообученного на предсказаниях слабого учителя, на тестовой-тестовой выборке, но дообученного без сильных штрафах за расхождение с учителем.

Результаты эксперимента

На графиках изображены три типа задач, описанные мной выше, а также результаты сетов.

Выводы:

Как минимум, гипотеза о том, что слабые учителя могут учить сильные модели, подтвердилась во всех сеттингах. Слабый учитель может ошибаться и косячить в предсказаниях, но сильный студент всё равно учится и превосходит слабого учителя, покрывая примерно половину разрыва до эталона в nlp задачах.
Тем не менее, результаты не всегда удовлетворительные. Например, в задаче имитации RLHF улучшения практически незначительные. Это косвенно может означать, что нам будет довольно сложно оценивать ответы супер-умных моделей.
Мы можем улучшить результаты взаимодействия слабого учителя и сильного ученика, добавив ученику чуточку уверенности в себе, иными словами, снизив авторитет учителя (хаха). В таком случае на задачах NLP мы достигаем чуть ли не эталонного результата.

Результаты говорят нам, что теоретически мы сможем не портить сильный искусственный интеллект своим некомпетентным фидбеком, раз уже GPT-4 смогла обучиться на предсказаниях GPT-2 и не деградировать, а даже стать лучше. С другой стороны, с RLHF почти ничего не получилось.

В связи с проблемой super-alignment, которую и рассматривали в статье, openai выкладывают исходный код и запускают грант на $10M для желающих исследовать super-alignment. В случае получения денег, всё что нужно – раз в три месяца предоставлять отчёт о прогрессе. Подробности есть в их релизе.

UPD:

Кажется, OpenAI всерьёз а) верят в изобретение AGI/ASI в ближайшие 10 лет, и б) опасаются, что это изобретение может представлять угрозу человечеству, иначе бы они не стали открывать масштабный грант на исследования super-alignment и делиться методами, которые работают и не работают, публично.

Источники

Hubs: