murza4ok Apr 20 at 19:45

Атакуем LLM — дешево, сердито, ИИ-шно

Easy

10 min

10K

Information Security *

Review

From sandbox

Comments 6

alex_lol4 Apr 20 at 19:59

По началу очень, сейчас очень недоволен из-за контекстного лимита.

Подписка за 200$ практически никогда не упирается в лимит. Столкнулся на Max с ограничениями только тогда, когда часа 3 Клод непрерывно писал код параллельно на 2 проектах.

murza4ok Apr 21 at 17:44

У меня был план Про, за ~2к рублей, я сравниваю с Codex за 500 именно в соотношении цена/контекст :) Лимиты в этой категории отличались разительно(в пользу кодекса, соответственно), максимальные подписки я не покупал :)

Politura Apr 20 at 20:33

План выглядит надежно, как швейцарские часы:
берём модель;
даём ей системный промпт;
подмешиваем внутренние документы;
даём доступ к БД;
называем это AI-ассистентом.

Угу, чтож тогда не рассмотреть взлом системы где БД просто в открытом виде без всяких креденшелов доступна всем через интернет?
LLM следует рассматривать как интерфейс для доступа к данным. Поэтому и доступны LLM должны быть только те данные, которые мы можем отдать напрямую без LLM. Если доступ для всех желающих, значит для LLM должны быть доступны только открытые данные. Если доступ к LLM клиентам только после того, как они залогинились, значит дополнительно должны быть доступны данные только этого клиента и никаких других.

Причем, реализуется это элементарно: к данным LLM получает доступ либо через RAG, либо через вызов тулзов. В обоих случаях в бакенд можно просто отдавать роль/айди юзера, который в настоящее время с LLM общается, так что фильтрация данных будет, как обычно, на стороне бакенда, согласно тому, куда у юзера есть доступ.

murza4ok Apr 21 at 18:10

Да, уровень уязвимости БД, смотрящей в интернет, и LLM-макета без фильтрации данных эквивалентный, я согласен :) Я продолжаю работу над тулзовиной и вторым своим опусом (если получится) хочу продемонстрировать атаку на второй и третий классы макетов, описанные в работе, которые соответствуют описанному вами подходу :)
Сейчас речь шла не столько о том, что данные нужно фильтровать перед отправкой, а о том, что порог входа "в злоумышленники" резко снизился, человеку не нужно долго учиться в университете, проходить курсы и заниматься старым-добрым саморазвитием, чтобы за пару вечеров набросать свой инструмент для киберзлодеяния. В самом начале я подсвечивал момент, что и от настоящих прод-агентов, смог получить "неэтичный" ответ, раскрывающий информацию, которую по-идее они должны были скрыть от пользователя :)

Smartor Apr 20 at 20:54

Вся эта длинная статья про то, что когда способом разграничения доступа является промт для нейросети, то это дыра в безопасности:)

murza4ok Apr 21 at 18:20

И да, и нет:)
Все-таки основной идеей я хотел пронести то, что уровень необходимых знаний для проведения атак снизился, сейчас достаточно быть убедительным по мнению LLM, работающей на вас :)
В следующий раз я хочу показать, что LLM способна создать полноценную нагрузку, которая сможет-таки выудить данные даже из макетов 3 категории, а не только из той, где за безопасность отвечает промпт "будь безопасной". Это, безусловно, дыра в безопасности :)