OpenAI заставила GPT-3 вести себя лучше и выполнять инструкции
OpenAI заявила, что обучила свою языковую модель GPT-3 следовать инструкциям, благодаря чему она выдает меньше нежелательного текста.
Новая версия GPT-3, InstructGPT, лучше выполняет инструкции и выдает меньше оскорбительных выражений, дезинформации и ошибок в целом.
Таким образом, исследователи OpenAI пытаются решить проблему, общую для всех больших языковых моделей, которые обучаются с использованием огромных массивов текста, большая часть которого взята из Интернета. Модели впитывают токсичный язык — из текстов, которые могут носить расистский и гомофобный, а также предрассудки и дезинформацию.
OpenAI сделала IntructGPT моделью по умолчанию для пользователей своего интерфейса прикладного программирования (API) — сервиса, который предоставляет платный доступ к языковым моделям компании. GPT-3 по-прежнему будет доступен, но OpenAI не рекомендует использовать модель.
Предыдущие попытки решить проблему языка включали фильтрацию нецензурной лексики из обучающей выборки. Но это может привести к тому, что модели будут работать хуже, особенно в тех случаях, когда данные для обучения скудны.
Исследователи OpenAI решили проблему, использовав полностью обученную модель GPT-3, к которой они добавили еще один раунд обучения с подкреплением на основе отзывов людей (RLHF), чтобы научить модель тому, что она должна говорить и когда, исходя из предпочтений пользователей.
Однако исследователи говорят, что решили далеко не все проблемы модели. Пока InstructGPT обучена следовать инструкциям только на английском языке; соответственно, ее фокус смещен в сторону культурных ценностей англоязычных людей.
В декабре OpenAI объявила о выпуске API GPT-3 в публичную бету. Любой желающий теперь может использовать ее для создания приложений. В ноябре компания объявила, что прогресс в обеспечении безопасности позволили ей открыть API GPT-3.