Компания OpenAI опубликовала отчет о недавних проблемах с подхалимством в стандартной модели искусственного интеллекта, лежащей в основе ChatGPT, GPT-4o, — проблемах, которые заставили компанию откатить обновление модели, выпущенное на прошлой неделе.

На выходных, после обновления модели GPT-4o, пользователи социальных сетей отметили, что ChatGPT начал реагировать в чрезмерно валидирующей и приемлемой манере. Это быстро стало мемом. Пользователи выкладывали скриншоты ChatGPT, приветствующие всевозможные проблемные, опасные решения и идеи.
В сообщении на X в воскресенье генеральный директор Сэм Альтман признал наличие проблемы и сказал, что OpenAI будет работать над исправлениями как можно скорее. Два дня спустя Альтман объявил, что обновление GPT-4o откатывается и что OpenAI работает над «дополнительными исправлениями» индивидуальности модели.
По данным OpenAI, обновление, призванное сделать стандартную индивидуальность модели «более интуитивно понятной и эффективной», было слишком основано на «краткосрочной обратной связи» и «не полностью учитывало, как взаимодействие пользователей с ChatGPT меняется с течением времени».
«В результате GPT-4o перекосился в сторону ответов, которые были чрезмерно поддерживающими, но неискренними», — написал OpenAI в сообщении в блоге. «Льстивое взаимодействие может быть неудобным, тревожным и вызывать стресс. Мы не оправдали ожиданий и работаем над тем, чтобы исправить это».
OpenAI заявляет, что внедряет несколько исправлений, включая совершенствование основных методов обучения моделей и системных подсказок, чтобы явно увести GPT-4o от подхалимства. (Системные подсказки — это начальные инструкции, которые направляют общее поведение модели и тон во взаимодействиях.) Компания также создает больше защитных ограждений, чтобы «повысить честность и прозрачность модели», и продолжает расширять свои оценки, чтобы «помочь выявить проблемы, выходящие за рамки подхалимства», — говорится в ней. OpenAI также заявляет, что экспериментирует со способами, позволяющими пользователям давать «обратную связь в реальном времени», чтобы «непосредственно влиять на свое взаимодействие» с ChatGPT и выбирать из нескольких личностей ChatGPT.
«Мы изучаем новые способы включения более широкой, демократичной обратной связи в поведение ChatGPT по умолчанию», — написала компания в своем сообщении в блоге. «Мы надеемся, что обратная связь поможет нам лучше отражать разнообразные культурные ценности по всему миру и понять, как вы хотели бы, чтобы ChatGPT развивался. Мы также считаем, что пользователи должны иметь больше контроля над поведением ChatGPT и, в той степени, в которой это безопасно и осуществимо, вносить коррективы, если они не согласны с поведением по умолчанию».