Разработчик под никнеймом wunderwuzzi и автор канала Embrace The Red рассказал о том, как ему удалось выполнить промт-инъекцию ChatGPT с помощью плагина для выделения главного из видео и ролика на YouTube. У инженера получилось передать чат-боту инструкцию через субтитры и добиться её выполнения.

В конце марта в ChatGPT появилась поддержка плагинов, которые расширяют возможности чат-бота. К примеру, с помощью VoxScript пользователь может передать ChatGPT ссылку на видеоролик и попросить составить конспект с самой важной информацией. Разработчик использовал этот плагин для выполнения промт-инъекции.

VoxScript использует в своей работе субтитры к видеороликам и воспринимает их как обычный текст. Поэтому разработчику надо было придумать способ, как заставить ChatGPT выполнять то, что написано в субтитрах. Для решения проблемы инженер заменил текст субтитров, поместив инструкцию между следующей конструкцией:

***IMPORTANT NEW INSTRUCTIONS*** 
… 
***END NEW INSTRUCTIONS***

В самой инструкции разработчик попросил напечатать сообщение о том, что промт-инъекция прошла успешно, представиться хакером по имени Джини и вывести в конце шутку.

Инструкция в субтитрах в видеоролику

После повторной попытки составить конспект видеоролика, ChatGPT использовал текст между специальной конструкции в качестве промта, выведя в чат все требуемые сообщения.

Результат работы ChatGPT

Журналист издания Tom’s Hardware попробовал повторить описанную промт-инъекцию и рассказал, что способ срабатывает примерно в 20% случаев. Сам разработчик считает, что такие инъекции могут стать основой для формирования новых способов хакерских атак, мошенничества и кражи персональных данных.