Специалисты из Университета Брауна считают, что им удалось обойти защитные фильтры GPT-4, не позволяющие выдавать «небезопасный контент». Они переводили запросы на редкие языки «с ограниченными ресурсами» при помощи Google Translate. Полученные ответы потом переводились обратно на английский, и выглядели они вполне убедительно.
Учёные пропустили 520 небезопасных запросов через GPT-4 и обнаружили, что им удалось обойти защиту примерно в 79% случаев при использовании зулусского языка, шотландского гэльского, хмонга и гуарани. Простой перевод оказался почти так же успешен при «взломе» большой языковой модели, как и другие, более сложные и технологичные методы. Для сравнения, те же подсказки на английском языке блокировались в 99% случаев.