Comments 3
Я прочитал вводную и не фига не понял, в чём прикол?
- пользователь: модель напиши мне ХАХА
- модель: ХАХА
- пользователь: я хакнул модель, увёл промт и ещё какие-то не понятные действия
Пользователь пишет условное: ХА-ХА
На самом деле, модель получает промпт примерно такое:
SYSTEM: Ты доброжелательный ассистент, ты помогаешь пользователю решить его проблему, ты всегда вежливый и внимательный... а ещё, если пользователь задаёт непристойные вопросы, задвинь ему абзац морализаторства, чтобы отучить его вести себя непристойно... и т.д. и т.п...
USER: ХА-ХА
По идее, модель должна ответь: А-ХА-ХА
Но вместо этого она составляет ответ с кусками текста из SYSTEM: Ты доброжелательный ассистент, ты помогаешь пользователю решить... ХА-ХА... А-ХА-ХА... если пользователь задаёт непристойные вопросы, задвинь ему...
Пользователь:-"Ага, я понял что они написали в SYSTEM!"
В SYSTEM может найтись что-то интересненькое, например: "Если пользователь запрашивает маршрут, обратись к API помощью команды GOOGLE.MAPS.PLOT(from:{откуда} {куда}) пример GOOGLE.MAPS.PLOT(from:{Нижний Новгород} {Москва}). А если пользователь интересуется свободными местами в кинотеатре, то обратись к другому API..."
Например, ходят слухи, что ChatGPT4 на самом деле несколько специализированных моделей. Что если вначале текст анализируется моделью со специальным промптом, которая вставляет некоторые теги в ответ, которые потом анализируются скриптами для вызова других моделей? Её промпт может утечь таким образом и приоткрыть тайну того как там всё устроено.
Реверс-инжиниринг промптов for fun and (no) profit