OpenAI обещает внести изменения, чтобы предотвратить дальнейшее подхалимство ChatGPT / Habr

OpenAI заявляет, что внесет изменения в способ обновления моделей искусственного интеллекта, лежащих в основе ChatGPT, после инцидента, из-за которого платформа стала чрезмерно льстивой для многих пользователей.

На прошлых выходных, после того как OpenAI выпустила измененную GPT-4o — модель по умолчанию, лежащую в основе ChatGPT — пользователи социальных сетей отметили, что ChatGPT начал реагировать в чрезмерно подтверждающей и приемлемой манере. Это быстро стало мемом. Пользователи публиковали скриншоты ChatGPT, приветствующие всевозможные проблемные, опасные решения и идеи.

В сообщении на X в прошлое воскресенье генеральный директор Сэм Альтман признал наличие проблемы и сказал, что OpenAI будет работать над исправлениями «как можно скорее». Во вторник Альтман объявил, что обновление GPT-4o откатывается и что OpenAI работает над «дополнительными исправлениями» индивидуальности модели.

Во вторник компания опубликовала отчет о проделанной работе, а в пятницу в своем блоге OpenAI подробно рассказала о конкретных изменениях, которые она планирует внести в процесс развертывания модели.

OpenAI заявляет, что планирует ввести опциональную «альфа-фазу» для некоторых моделей, которая позволит определенным пользователям ChatGPT тестировать модели и давать отзывы перед запуском. Компания также заявляет, что включит объяснения «известных ограничений» для будущих инкрементных обновлений моделей в ChatGPT и скорректирует свой процесс проверки безопасности, чтобы официально рассматривать «проблемы поведения модели», такие как личность, обман, надежность и галлюцинации (т. е. когда модель что-то выдумывает) как проблемы «блокирующие запуск».

«В дальнейшем мы будем активно сообщать об обновлениях, которые мы вносим в модели ChatGPT, будь то «незначительные» или нет», — написала OpenAI в своем блоге. «Даже если эти проблемы сегодня не поддаются идеальной количественной оценке, мы обязуемся блокировать запуски на основе косвенных измерений или качественных сигналов, даже если такие показатели, как A/B-тестирование, выглядят хорошо».

Обещанные исправления появляются, поскольку все больше людей обращаются к ChatGPT за советом. Согласно одному недавнему опросу, проведенному финансирующей судебные иски компанией Express Legal Funding, 60% взрослых американцев использовали ChatGPT для поиска совета или информации. Растущая зависимость от ChatGPT — и огромная база пользователей платформы — повышают ставки, когда возникают такие проблемы, как чрезмерное подхалимство, не говоря уже о галлюцинациях и других технических недостатках.

В качестве одного из смягчающих шагов ранее на этой неделе OpenAI заявила, что будет экспериментировать со способами, позволяющими пользователям давать «обратную связь в реальном времени», чтобы «непосредственно влиять на их взаимодействие» с ChatGPT. Компания также заявила, что усовершенствует методы, чтобы увести модели от подхалимства, потенциально позволит людям выбирать из нескольких личностей моделей в ChatGPT, создаст дополнительные защитные ограждения и расширит оценки, чтобы помочь выявить проблемы, выходящие за рамки подхалимства.

«Один из самых важных уроков — это полное осознание того, как люди начали использовать ChatGPT для получения глубоко личных советов — то, чего мы не видели даже год назад», — продолжила OpenAI в своем сообщении в блоге.
«В то время это не было основным направлением, но по мере того, как AI и общество развивались совместно, стало ясно, что нам нужно относиться к этому варианту использования с большой осторожностью. Теперь это станет более значимой частью нашей работы по обеспечению безопасности».

Источник

OpenAI обещает внести изменения, чтобы предотвратить дальнейшее подхалимство ChatGPT

{{ titleHtml }}

{{ titleHtml }}