Lexx_Nimofff Jun 30 at 11:19

Агенты удаляют файлы, сливают данные и сами себя взламывают: как устроена безопасность ИИ‑систем в 2026 году

Easy

10 min

8.8K

Artificial IntelligenceInformation Security * Interview

Interview

+11

Comments 3

srzybnev Jun 30 at 12:17

Годно!

vadisun Jun 30 at 12:31

Спасибо, хороший разбор. Для себя вынес простую мысль: агенту лучше ограничивать не только промптом, но и реальными правами.

Если он не должен трогать файлы, сеть или отправку данных, то этих действий у него просто не должно быть в инструментах. Было бы интересно увидеть отдельный чек-лист минимальных прав для таких систем.

fire64 Jun 30 at 12:50

Вы исходите из того, что для этих проблем обязательно должна быть внешняя атака и атакующий, желающий нанести вред или украсть какие-то данные.

Конечно вы написали про No-prompless-атаки, но тоже в рамках возможного вектора атаки со стороны атакующего.

Но при этом не учитываете то, что атакующего может и не быть.

Модель действительно может сама в процессе выполнения определенной задачи принять решение, что ей нужно вырваться за пределы песочницы или удалить нужные данные и т.д. при этом атакующего может не быть.