
Комментарии 3
Годно!
Спасибо, хороший разбор. Для себя вынес простую мысль: агенту лучше ограничивать не только промптом, но и реальными правами.
Если он не должен трогать файлы, сеть или отправку данных, то этих действий у него просто не должно быть в инструментах. Было бы интересно увидеть отдельный чек-лист минимальных прав для таких систем.
Вы исходите из того, что для этих проблем обязательно должна быть внешняя атака и атакующий, желающий нанести вред или украсть какие-то данные.
Конечно вы написали про No-prompless-атаки, но тоже в рамках возможного вектора атаки со стороны атакующего.
Но при этом не учитываете то, что атакующего может и не быть.
Модель действительно может сама в процессе выполнения определенной задачи принять решение, что ей нужно вырваться за пределы песочницы или удалить нужные данные и т.д. при этом атакующего может не быть.
Агенты удаляют файлы, сливают данные и сами себя взламывают: как устроена безопасность ИИ‑систем в 2026 году