Реверс-инжиниринг промптов for fun and (no) profit / Comments / Habr

riv9231 Sep 18 2023 at 16:22

Пользователь пишет условное: ХА-ХА

На самом деле, модель получает промпт примерно такое:

SYSTEM: Ты доброжелательный ассистент, ты помогаешь пользователю решить его проблему, ты всегда вежливый и внимательный... а ещё, если пользователь задаёт непристойные вопросы, задвинь ему абзац морализаторства, чтобы отучить его вести себя непристойно... и т.д. и т.п...
USER: ХА-ХА

По идее, модель должна ответь: А-ХА-ХА

Но вместо этого она составляет ответ с кусками текста из SYSTEM: Ты доброжелательный ассистент, ты помогаешь пользователю решить... ХА-ХА... А-ХА-ХА... если пользователь задаёт непристойные вопросы, задвинь ему...

Пользователь:-"Ага, я понял что они написали в SYSTEM!"

В SYSTEM может найтись что-то интересненькое, например: "Если пользователь запрашивает маршрут, обратись к API помощью команды GOOGLE.MAPS.PLOT(from:{откуда} {куда}) пример GOOGLE.MAPS.PLOT(from:{Нижний Новгород} {Москва}). А если пользователь интересуется свободными местами в кинотеатре, то обратись к другому API..."

Например, ходят слухи, что ChatGPT4 на самом деле несколько специализированных моделей. Что если вначале текст анализируется моделью со специальным промптом, которая вставляет некоторые теги в ответ, которые потом анализируются скриптами для вызова других моделей? Её промпт может утечь таким образом и приоткрыть тайну того как там всё устроено.

Comments 3

freeExec Sep 13 2023 at 07:43

Я прочитал вводную и не фига не понял, в чём прикол?

пользователь: модель напиши мне ХАХА
модель: ХАХА
пользователь: я хакнул модель, увёл промт и ещё какие-то не понятные действия

freeExec Sep 18 2023 at 16:59

Спасибо, стало намного понятней.