Prompt Worms: Как агенты стали новыми переносчиками вирусов / Комментарии / Хабр

А что вообще за фигня с этими ИИ-агентами? Почему они все, что увидят, воспринимают как команду, обязательную к исполнению?

Dmitriila 6 фев в 05:12

скилы (подгружаемые), вседозволенность которую даёт сам пользователь (адм права), ну и обычная бесконтрольность от юзера

rPman 6 фев в 05:36

Потому что изначально llm-ку учат работать с простыней текста, для нее нет никакой разницы, системный промпт это, пользовательский или данные, это просто кусок данных без разметки.

Затем с помощью некоторых ухищрений повышают вероятность (вот буквально в такой формулировке) работать с размеченым текстом (появляются блоки со своим форматом, вот примеры шаблонов разных открытых моделей), но в конечном счете модель не будет различать в чате свои реплики от пользовательских (это прекрасно видно, общаешься с openai:gpt25 а оно в тексте свои же реплики считает за моими - 'вы правильно сказали что...').

Т.е. модель может считать свои сообщения как за пользовательские а пользовательские за свои, ну и конечно данные считать за команды к действиям.

С этим можно бороться, повышая вероятность обнаружения таких данных, но ценою токенов (и не только), т.е. больше запросов поверх. Например если собрать хорошую базу атакующих промптов, можно натюнить небольшую модель, для предварительной разметки данных - инструкция или нет, и уже детерминированными методами вырезать из текста эти участки и работать с ними по отдельности специализированными агентами (которые уже дорогими способами поймут, опасный ли это текст или нет, т.е. пускать ли такие данные в общий незащищенный пайплайн)... не панацея но усложнаяет атаку.

Многие скажут - не давайте никаких прав агентам, разграничивайте, огораживайте,.. но такой подход не только усложняет систему но и заставляет убирать те возможности, которые собственно дает ИИ. Конечно нужно, но делать это нужно с умом и... никаких гарантий, поэтому не советую отдавать в руки современного недоИИ свою жизнь, доступ к банковским картам, личным данным и свой бизнес.

Geologist5330 6 фев в 05:57

Хз, может я слишком консервативен, но для меня все эти ИИ агенты (особенно с адм правами), это эдакие обезьяны с гранатами. Что-то разрешать им делать в моей системе и права на запись я бы точно им не дал, тем более без предварительного ревью вносимых изменений. 🙈

Dmitriila 6 фев в 06:00

да, именно так, обезъяны с гранатами, тут вы полностью правы)

CitizenOfDreams 6 фев в 07:05

В общем, пока что получился не искусственный интеллект, а искусственный шизофреник с голосами в голове.

Dmitriila 6 фев в 07:44

да, всё сейчас не очень с безопасностью, но это там, у нас с этим ещё хуже к сожалению

wsf 6 фев в 07:42

Лет 25 назад нахождение полиморфного алгоритма на твоей машине с высокой долей вероятности означало переустановку системы вследствие заражения. Сегодня внезапно исследователи обнаруживают что запускать недетерменированный алгоритм и давать ему доступ к системе небезопасно.

Dmitriila 6 фев в 08:55

вы тоже 98 винду по 10 раз на дню переставляли?))))

wsf 8 фев в 07:22

Бывало да)

Prompt Worms: Как агенты стали новыми переносчиками вирусов

Комментарии 10

Публикации