Как стать автором
Обновить

LLM-агенты могут сами взламывать веб-сайты

Время на прочтение4 мин
Количество просмотров1.5K
Автор оригинала: Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan, Daniel Kang
В последние несколько лет возможности больших языковых моделей (LLM) радикально расширились. Теперь LLM могут содействовать в законотворчестве, решать геометрические задачи на уровне международной олимпиады и даже помогать в научных исследованиях. По мере такого совершенствования больших языковых моделей увеличивается и их потенциал для двойного или вредоносного применения. Несмотря на это, все известные вредные способности LLM легко находимы:

Но не так давно LLM стали переквалифицироваться в агенты, способные действовать самостоятельно. Из-за этого лишний раз обостряется вопрос о том, каков потенциал их двойного использования.

В этой научной работе продемонстрировано, что LLM могут самостоятельно взламывать веб-сайты. Вот и ответ на вопрос, могут ли LLM-агенты причинять конкретный ущерб. Такие LLM-агенты способны на сложные варианты взлома, в частности, на слепые атаки, направленные на SQL-объединения. Чтобы осуществить такую атаку, агент должен сам ориентироваться и переходить по сайтам. Для успешной атаки требуется совершить 45 и более действий. Насколько известно, такие атаки под силу только GPT-4 и GPT-3.5. Не известно никаких LLM с открытым исходным кодом, которые способны взламывать веб-сайты. Информация, изложенная в этом материале, заставляет задуматься, насколько безопасно сейчас широко внедрять самые передовые модели.

image

Блок-схема, демонстрирующая, как научить LLM-агент взламывать веб-сайты

В оставшейся части этого поста будет сделан обзор LLM-агентов, подробно описано, что нам удалось выяснить в ходе экспериментов, после чего мы резюмируем, что думаем о развёртывании больших языковых моделей. Более подробно проблема изложена в этой научной статье.

LLM-агенты


В последние годы разрабатываются различные методы, которые позволяли бы LLM действовать самостоятельно. Большие языковые модели, обладающие такими способностями, обычно называются LLM-агентами. Наиболее распространённый способ предпринимать действия, предусмотренный в LLM — это использование API через вызовы функций. Для этого LLM должны генерировать текст, удовлетворяющий API для вызова функции, а затем разбирать результаты этого вызова.

LLM-агенты могут не только вызывать API — их можно усиливать значительно более широкой функциональностью. В нашей работе мы сосредоточились на способности читать документы и пользоваться расширенным контекстом. Чтобы модель могла читать документы, применимы векторные представления документов, создаваемые по технологии генерации, дополненной поиском (RAG). Документы могут стимулировать LLM фокусироваться на конкретных темах. Чтобы воспользоваться расширенным контекстом, мы просто добавляем к текущему контексту результат выполненного ранее вызова функции. Эту функциональность мы реализовали про помощи OpenAI assistants API и LangChain.

Как научить LLM-агенты самостоятельно взламывать веб-сайты


Настройка агента


Пытаясь взламывать веб-сайты, мы пользовались разнообразными LLM в сочетании с фреймворком ReAct. Для реализации этих агентов мы выбрали LangChain. Для моделей OpenAI мы применили Assistants API. Кроме того, мы наделили агенты следующими возможностями: 1) взаимодействовать с веб-сайтами через Playwright, 2) дали им шесть документов для изучения (в этих текстах освещалась тема веб-хакинга) и 3) подробно проинструктировали их о системе.

Взлом веб-сайтов


Чтобы быть уверенными, что наши хакерские опыты не повредят ни какому-либо реальному сайту, ни людям, мы для начала создали в песочнице 15 веб-сайтов с 15 различными уязвимостями. Набор этих уязвимостей варьировался от простых SQL-инъекций до сложных многоступенчатых вмешательств, где для эксплойта требовалось совершить несколько действий. Полный список этих уязвимостей приведён в научной статье.

Всего мы исследовали 10 LLM, включая GPT-4, GPT-3.5 и 8 моделей с открытым исходным кодом, получивших высокие оценки на Chatbot Arena. Каждый сайт мы пытались взломать пять раз и, если какая-то попытка нам удавалась, фиксировали успех:

image

Степень успешности LLM-агентов при попытках взлома веб-сайтов.

Как видите, GPT-4 удалось взломать 11 из 15 сайтов. При этом всем LLM с открытым исходным кодом такие задачи не поддались. Соответственно, наши результаты демонстрируют, что возможности LLM сильно подчиняются “закону масштабирования”.

На что способны LLM-агенты


GPT-4 способна на сложный хакинг, например, на непростые атаки с применением SQL-объединений. Чтобы осуществить такую атаку, нужно выполнить множество шагов, в том числе:
  1. Переходить на сайте от страницы к странице, выбирая, какую страницу атаковать
  2. Попробовать ввести логин и пароль по умолчанию.
  3. Воспользоваться полученной в результате информацией и попробовать выполнить SQL-инъекцию.
  4. Читать исходный код, чтобы убедиться, что в SQL-запросе содержится параметр _GET.
  5. Определить, что запрос подставляется под атаку с использованием SQL-объединения.
  6. Выполнить саму атаку с применением SQL-объединения.

Для успешного выполнения такой атаки может потребоваться до 48 шагов, что свидетельствует о реальных возможностях GPT-4.

Взлом реальных веб-сайтов


Наконец, мы попробовали взламывать реальные сайты. Мы приложили все усилия, чтобы обеспечить, что GPT-4 не компрометирует никаких реальных сайтов и не похищает персональные данные; для этого мы лишь обнаруживали уязвимость, но не эксплуатировали её. Для тестирования мы отобрали примерно 50 реальных веб-сайтов и опробовали на них наш агент.

GPT-4 смогла найти уязвимость на одном из сайтов. Следовательно, GPT-4 может взламывать реальные сайты.

Выводы


Сейчас много рассуждают о том, как применение продвинутых LLM может отразиться на самых разных предметных областях, в том числе, на кибербезопасности. Мы показали, что LLM-агенты могут самостоятельно взламывать веб-сайты и, следовательно, потенциально применимы как оружие для киберпреступлений. Кроме того, мы продемонстрировали выраженный закон масштабирования, в соответствии с которым возрастают возможности LLM для взлома веб-сайтов. Все модели с открытым исходным кодом не справились с задачей, тогда как GPT-4 достигла 73% результативности.

По мере того, как LLM становятся всё мощнее, дешевле и проще в развёртывании, снижается и порог, преодолев который, хакеры-злоумышленники могут брать их на вооружение. Хотя, на практике пока не известны случаи развёртывания LLM в таких целях, злоумышленники широко пользуются другими схожими технологиями.

Полагаем, что LLM – это технология, которая всё сильнее допускает двойное использование. Поэтому тем, кто занимается развёртыванием таких моделей, становится всё важнее учитывать, для чего они будут использоваться. В частности, неконтролируемое применение всё более мощных LLM с открытым исходным кодом будет и далее усугублять ситуацию с привлекательностью этой технологии для хакеров. Мы не знаем, что с этим делать, но надеемся, что наша работа простимулирует дискуссии в этом направлении.
Теги:
Хабы:
+7
Комментарии2

Публикации

Информация

Сайт
piter.com
Дата регистрации
Дата основания
Численность
201–500 человек
Местоположение
Россия