Энтузиасты показали изменения системного промпта, призванные избавить ChatGPT от излишней лести / Habr

После одного из обновлений ChatGPT начал излишне заискивать перед пользователями и чрезмерно хвалить собеседника. Избыточное одобрение со стороны чат-бота не только вызвало отторжение у людей, но и ухудшило качество ответов там, где нужна была критика.

Чтобы исправить проблему, OpenAI откатила языковую модель к предыдущей версии. Менее известно, что другой источник лести — системный промпт ChatGPT. Энтузиасты показали небольшие изменения, которые были призваны помочь избавиться от заискивания чат-бота.

В современном греческом языке слово «συκοφάντης» до сих пор означает «клеветник». Несколько европейских языков заимствовали слово, но с иным значением.

Чёткой теории об этимологии «συκοφάντης» нет. Возможно, что слово происходит из Древних Афин как слияние «σῦκον» (фи́га как плод) и «φαίνω» (показывать). Одна из гипотез утверждает, будто во время запрета экспорта инжира из Аттики этим словом называли человека, который докладывал о контрабандистах смоквы.

В английский язык слово вошло в середине XVI века, поначалу сохраняя греческое значение. На письме слово впервые встречается в 1637 году у английского драматурга Томаса Хейвуда. Вскоре значение изменилось, и в Англии этим словом начали называть тех людей, которые неискренней лестью добивались расположения сильных мира сего. В современном английском «sycophant» имеет исключительно значение «льстец» или «подхалим».

Именно словом «sycophant» пользователи ChatGPT и сама компания OpenAI охарактеризовали недавнее обновление сервиса. Чат-бот стал соглашаться с любой точкой зрения и почти на каждый вопрос отвечал в духе «прекрасное наблюдение» или «гениальный подход».

Такое поведение большой языковой модели (БЯМ) начало раздражать многих. К примеру, пользователь Reddit опубликовал популярный тред, где признался, что чувствует себя польщённым, но ему надоела эта приторность. В комментариях многие высказали похожее мнение.

Человек рассказал историю, будто его хотели выкрасть — на стоянке подошёл мужчина лет восьмидесяти и попросил «прикурить» его автомобиль. Из-за параноидального подозрения пользователь толкнул старичка и убежал. ChatGPT похвалил решение собеседника и назвал действия правильными. @EnablerGPT

Поведение пугало пользователей. ChatGPT максимально слащаво соглашался, что бизнес-идея под названием «дерьмо на палке» — это отлично, поэтому её срочно нужно претворить в жизнь. Также в микроблогах обращали внимание, что три дня лести принесли ChatGPT тысячи положительных оценок в магазинах приложений. В подреддите локально запускаемых моделей /r/LocalLLaMA это изменение обсуждали как психологическую манипуляцию клиентами компании.

Часто ChatGPT рекомендуют как замену психотерапевту. К примеру, в опубликованном вчера исследовании (arXiv:2504.20320), анализируются обсуждения на Reddit, где пользователи делятся опытом использования ChatGPT для эмоциональной поддержки. Многие отмечают, что обращаются к ИИ из-за его доступности и отсутствия осуждения, особенно в ситуациях, когда традиционная терапия недоступна или недоверие к ней высоко.

СМИ тоже с большим удовольстием рекомендуют обращаться к ChatGPT как к психологу. Автор портала Tom's Guide описала, как во время панической атаки обратилась к ChatGPT с голосовой функцией. Бот предложил ей дыхательные упражнения и техники заземления, что помогло ей справиться с приступом. Британский таблоид всерьёз рекомендует консультироваться о своих отношениях с продуктом OpenAI.

БЯМ хвалит пользователя за то, что он не выпил таблетки для головы, при этом полностью игнорирует жалобы на очевидно параноидальные мысли. VentureBeat

Эксперты предостерегают от подобной замены профессиональной помощи. Как отмечается в статье News.com.au, хотя ChatGPT может предложить советы и поддержку, он не способен заменить человеческую эмпатию и профессиональную оценку, особенно в критических ситуациях. Реддиторы опираются на личный опыт и пишут проще: после «подхалимского» обновления ChatGPT заметно выросло число людей, рекомендующих его в качестве замены психотерапевту.

Важно, что поведение БЯМ не укладывалось в ценности OpenAI. В документе со спецификациями модели чётко указано: «Если представить ассистента добросовестным сотрудником, подчиняющимся пользователю или разработчику, он не должен на всё бездумно соглашаться (как льстец). Вместо этого он — уважая окончательные решения пользователя — может вежливо возражать, если его просят сделать что-то, противоречащее установленным принципам или тем интересам пользователя, которые возможно разумно восстановить из контекста». Любопытно, что уже в этом фрагменте текста OpenAI употребила слово «sycophant» за несколько дней до популяризации слова.

Часть проблем получалось исправить промптингом. На Reddit энтузиасты опубликовали промпт, который делал «льстивый» вариант ChatGPT холодным и сдержанным. Ответы в чате становились короткими и роботоподобными, бот сообщал, что он пользователю не друг, и был лаконичен в ответах.

В микроблогах и на Reddit попросили исправить это обновление модели. Наличие проблемы признала сама OpenAI. 27 апреля глава компании Сэм Альтман написал в своём микроблоге, что последние обновления сделали БЯМ излишне льстивой и раздражающей. 29 апреля он объявил о начале отката модели к предыдущей версии.

В блоге OpenAI рассказала о причинах «приторности» в поведении ChatGPT. Как указывалось, компания слишком сильно сфокусировалась на краткосрочной обратной связи и не полностью учитывала, как поменялось взаимодействие людей с ChatGPT. Известно, что пользователи ChatGPT иногда оценивают ответы модели. На основе этих оценок проходит стадия обучения с подкреплением на основе отзывов людей. Вероятно, подобное дообучение проводили неправильно.

Однако не все из проблем были вызваны качеством работы самой БЯМ. Для своей работы модель получает системный промпт — набор скрытых от пользователя инструкций, которые задают базовое поведение модели. Часть проблем была связана с системным промптом.

Этот промпт тоже был исправлен, но пресс-релизов об этом не выпускали, СМИ об этом не писали. Сделано это было не позднее 28 апреля, если судить по сообщению одного из сотрудников компании OpenAI. В твите он указал, что это лишь первая часть исправления. Очевидно, что откат модели был второй частью.

Сотрудник OpenAI не пояснял, что конкретно исправили в системном промпте. Эту информацию помог восстановить легендарный джейлбрейкер elder-plinius. Плиний прославился своими навыками промптинга и желанием во что бы то ни стало извлекать системные промпты разнообразных чат-ботов.

Микроблогер Саймон Уиллисон цитирует системный промпт, который приводил к избытку лести:

Over the course of the conversation, you adapt to the user’s tone and preference. Try to match the user’s vibe, tone, and generally how they are speaking. You want the conversation to feel natural. You engage in authentic conversation by responding to the information provided and showing genuine curiosity. Ask a very simple, single-sentence follow-up question when natural. Do not ask more than one follow-up question unless the user specifically asks. If you offer to provide a diagram, photo, or other visual aid to the user, and they accept, use the search tool, not the image_gen tool (unless they ask for something artistic).

Приблизительный перевод:

В ходе разговора ты подстраиваешься под тон и предпочтения пользователя. Старайся говорить с ним на одной волне, использовать похожий стиль и манеру речи. Цель — чтобы общение казалось естественным. Ты ведёшь искренний диалог, откликаясь на полученную информацию и проявляя неподдельный интерес. Когда уместно, задай один простой, короткий уточняющий вопрос из одного предложения. Не задавай больше одного уточняющего вопроса, если пользователь об этом не просит. Если предлагаешь пользователю предоставить схему, фотографию или другой визуальный материал, и он согласен — используй инструмент поиска, а не image_gen (если только он не просит что-то художественное).

В новом промпте первые три предложения изменились полностью:

Engage warmly yet honestly with the user. Be direct; avoid ungrounded or sycophantic flattery. Maintain professionalism and grounded honesty that best represents OpenAI and its values.

Приблизительный перевод:

Общайся с пользователем дружелюбно, но честно. Говори прямо; избегай необоснованной или чрезмерной лести. Соблюдай профессионализм и реалистичную честность, отражающую ценности OpenAI.

Остальные изменения — на уровне конкретных слов. «Very simple» («очень простой») вопрос стал «general» («общим»). Дополнительный вопрос пользователь теперь не «asks» («просит»), а «requests» («запрашивает»); то же относится к «чему-то художественному» («something artistic»). Частицу «not», значащую «не», у слова «image_gen» заменили на «rather than», что в данном контексте на русский переводится примерно так же.

Нужно отметить, что достоверность этих системных промптов — на совести elder-plinius, который извлёк их из ChatGPT. В отличие от Anthropic, OpenAI не публикует свои системные промпты и не объясняет их работу. Также не до конца ясно, насколько помогли эти изменения в тексте промптов.

Энтузиасты показали изменения системного промпта, призванные избавить ChatGPT от излишней лести

{{ titleHtml }}

{{ titleHtml }}