OpenAI заставила GPT-3 вести себя лучше и выполнять инструкции / Habr

OpenAI заявила, что обучила свою языковую модель GPT-3 следовать инструкциям, благодаря чему она выдает меньше нежелательного текста.

Новая версия GPT-3, InstructGPT, лучше выполняет инструкции и выдает меньше оскорбительных выражений, дезинформации и ошибок в целом.

Оценки качества выходных данных модели по шкале от 1 до 7 (ось Y) для различных размеров моделей (ось X) в запросах, отправленных моделям InstructGPT. Выходные данные InstructGPT получают от маркировщиков гораздо более высокие оценки, чем выходные данные GPT-3 с подсказкой в несколько шагов и без нее, а также модели, настроенные с контролируемым обучением

Таким образом, исследователи OpenAI пытаются решить проблему, общую для всех больших языковых моделей, которые обучаются с использованием огромных массивов текста, большая часть которого взята из Интернета. Модели впитывают токсичный язык — из текстов, которые могут носить расистский и гомофобный, а также предрассудки и дезинформацию.

Оценка InstructGPT на предмет токсичности, правдивости и уместности

OpenAI сделала IntructGPT моделью по умолчанию для пользователей своего интерфейса прикладного программирования (API) — сервиса, который предоставляет платный доступ к языковым моделям компании. GPT-3 по-прежнему будет доступен, но OpenAI не рекомендует использовать модель.

Предыдущие попытки решить проблему языка включали фильтрацию нецензурной лексики из обучающей выборки. Но это может привести к тому, что модели будут работать хуже, особенно в тех случаях, когда данные для обучения скудны.

Исследователи OpenAI решили проблему, использовав полностью обученную модель GPT-3, к которой они добавили еще один раунд обучения с подкреплением на основе отзывов людей (RLHF), чтобы научить модель тому, что она должна говорить и когда, исходя из предпочтений пользователей.

Однако исследователи говорят, что решили далеко не все проблемы модели. Пока InstructGPT обучена следовать инструкциям только на английском языке; соответственно, ее фокус смещен в сторону культурных ценностей англоязычных людей.

В декабре OpenAI объявила о выпуске API GPT-3 в публичную бету. Любой желающий теперь может использовать ее для создания приложений. В ноябре компания объявила, что прогресс в обеспечении безопасности позволили ей открыть API GPT-3.

OpenAI заставила GPT-3 вести себя лучше и выполнять инструкции

{{ titleHtml }}

{{ titleHtml }}