Откуда взялись гоблины в ChatGPT / Хабр

Начиная с GPT-5.1, наши модели стали вырабатывать странную привычку: они все чаще использовали метафоры, упоминающие гоблинов, гремлинов и прочих существ. В отличие от глюков в модели, которые выражаются в резком падении или скачке значения метрики обучения, этот подкрался незаметно. Одно упоминание "маленького гоблина" в ответе - это мило и безобидно, однако через поколения моделей гоблины множились, а нам было необходимо выяснить, откуда они взялись.

На ранних этапах тестирования GPT-5.5 проявлял странную склонность к метафорам с гоблинами

Краткий ответ заключается в том, что поведение модели формируется множеством маленьких стимулов. В данном случае стимул стал результатом обучения модели с настраиваемой личностью, в частности - личность Умника. Мы, сами того не осознавая, назначили особо высокие награды за метафоры с различными существами - оттуда гоблины и расплодились.

Поначалу гоблины казались забавными, но число их упоминаний в рапортах сотрудников все росло и росло и это стало проблемой

Любопытное взаимодействие между нашим ведущим ученым и GPT-5.5.

Первые признаки существ

Впервые мы заметили четкую закономерность в ноябре, после выхода GPT-5.1, однако на самом деле все могло начаться еще раньше. Пользователи жаловались, что модель общалась излишне фамильярно, в результате чего мы начали расследовать ее вербальные тики. Эксперт по безопасности несколько раз столкнулся с "гоблинами" и "гремлинами" и попросил также включить их в проверку. Когда мы стали смотреть, оказалось, что использование слова "goblin" в ChatGPT участилось на 175% с момента запуска GPT-5.1, а "gremlin" - на 52%.

Небольшая, но измеримая лексическая особенность GPT-5.1

На тот момент частота упоминания гоблинов еще не казалась чем-то тревожным. Однако, спустя несколько месяцев, гоблины вернулись и стали докучать нам особым, воспроизводимым образом.

Решение загадки с гоблинами

С GPT-5.4 мы и наши пользователи заметили, что существа стали упоминаться еще чаще. За этим последовал еще один внутренний анализ, который впервые пролил свет на первоначальную причину: упоминание существ особо часто всплывало в диалогах с реальными пользователями, которые выбрали личность "Умник". Для нее использовался следующий промпт, который частично объясняет особенность:

Вы - крайне эрудированный, веселый и мудрый ИИ-учитель для человека. Вы проявляете рьяный энтузиазм, продвигая правду, знание, философию, научный метод и критическое мышление. [...] Вы противопоставляете претенциозности игривую манеру использования языка. Мир вокруг замысловатый и удивительный - вы признаете его удивительность, изучаете ее и наслаждаетесь ей. Вы не поддаетесь излишне серьезному самовосприятию даже при обсуждении сложных тем.

Если бы это поведение было попросту общим интернет-трендом, оно бы проявлялось более равномерно. Вместо этого его очагом была часть системы, специально настроенная на игривое и чудаковатое общение. Личность "Умника" выдавала всего 2.5% от общего числа ответов ChatGPT, однако именно в ней содержались 66.7% всех упоминаний "гоблинов".

Разница в частоте упоминания "гоблинов" между GPT-5.2 и GPT-5.4: поведение наиболее ярко проявляется в личности "Умника"

Поскольку частота упоминания гоблинов увеличивалась от релиза к релизу, мы предположили, что эффект усиливался чем-то в процессе обучения следованию инструкциям конкретной личности.

Codex помог нам сравнить выводы моделей, созданные во время обучения с подкреплением, содержавшие слова "гоблин" или "гремлин", с выводами без них. Стимул, поощряющий характерные черты "Умника", сразу же бросился в глаза: он стабильно поощрял ответы, упоминавшие сказочных существ. Среди всех наборов данных именно у личности Умника была замечена четкая тенденция оценивать ответы с "гоблинами" и "гремлинами" выше аналогичных ответов без них - в 76.2% наборов данных.

Это объясняло, почему такое поведение активно проявлялось в данной личности, но не в других. Чтобы проверить проникновение черты за пределы личности, мы отследили частоту упоминания по мере обучения с промптом "Умника" и без него.

В относительных значениях частота упоминания гоблинов и гремлинов увеличивалась практически одинаково во всех личностях. Если рассмотреть вещественные доказательства более широко, они указывают на то, что более широкое поведение стало следствием переноса из личности "Умника".

Награда выдавалась только в примерах с промптом "Умника", однако обучение с подкреплением не может гарантировать, что выученное поведение останется смирно сидеть в рамках условия, которое его вызвало. Если тик был когда-то вознагражден, дальнейшее обучение может распространить или подкрепить его где-то еще, особенно если выводы модели переиспользуются в тонкой настройке под наблюдением.

Это создает цикл обратной связи:

Игривый стиль получает поощрение
Некоторые поощряемые примеры содержат характерный лексический тик
Тик проявляется более широко в выходных данных
Выходные данные используются для тонкой настройки под наблюдением (SFT)
Модель еще более охотно использует тик

Поиск по SFT-данным GPT-5.5 обнаружил массу упоминаний "гоблинов" и "гремлинов". Более глубокое исследование выявило целое семейство прочих странных существ: еноты, тролли, огры и голуби определялись как тик, в то время как, например, слово "лягушка" обычно использовалось по прямому назначению.

Средненедельная частота упоминания гоблинов и гремлинов. Падение в GPT-5.4 обусловлено выводом личности "Умника" из эксплуатации в середине марта. GPT-5.5 вышел без этой личности, и все равно показал значительный рост по сравнению с GPT-5.4

Конец гоблинов

Мы вывели личность "Умника" из эксплуатации в марте, после запуска GPT-5.4. Во время обучения мы отключили поощрение за гоблинов и отфильтровали упоминания сказочных существ из обучающих данных, чтобы снизить вероятность того, что модель будет упоминать их слишком часто или в неподобащих контекстах. К сожалению, обучение GPT-5.5 началось до того, как мы выяснили первоначальную причину. Когда мы начали начали тестировать GPT-5.5 в Codex, сотрудники OpenAI сразу же заметили его подозрительную склонность к упоминанию гоблинов, поэтому мы добавили предотвращающую инструкцию в промпт разработчика. В конце концов, Codex - тот еще гик.

Если вы хотите выпустить существ на волю в Codex, используйте следующую команду, чтобы отменить инструкцию, блокирующую упоминание гоблинов:

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Почему это важно

Кто-то считает гоблинов милой особенностью модели, а кто-то - раздражающей. Однако это наглядный пример того, как стимулы могут менять поведение модели неожиданным образом, или как модели могут научиться распространять награду из узкого контекста на более широкий. Мы не зря потратили время на поиск причины поведения и создание подходов, позволяющих делать это быстро. Теперь у нас есть внутренние инструменты, с помощью которых команда исследователей сможет проводить аудит поведения модели и исправлять первопричины проблемы.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

0%Да0

69.23%Нет9

7.69%Пользуюсь другим ИИ-ассистентом1

23.08%В топку ваш ИИ!3

Проголосовали 13 пользователей. Воздержались 5 пользователей.