Обновить

Агенты удаляют файлы, сливают данные и сами себя взламывают: как устроена безопасность ИИ‑систем в 2026 году

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели7.4K
Всего голосов 4: ↑4 и ↓0+9
Комментарии3

Комментарии 3

Спасибо, хороший разбор. Для себя вынес простую мысль: агенту лучше ограничивать не только промптом, но и реальными правами.

Если он не должен трогать файлы, сеть или отправку данных, то этих действий у него просто не должно быть в инструментах. Было бы интересно увидеть отдельный чек-лист минимальных прав для таких систем.

Вы исходите из того, что для этих проблем обязательно должна быть внешняя атака и атакующий, желающий нанести вред или украсть какие-то данные.

Конечно вы написали про No-prompless-атаки, но тоже в рамках возможного вектора атаки со стороны атакующего.

Но при этом не учитываете то, что атакующего может и не быть.

Модель действительно может сама в процессе выполнения определенной задачи принять решение, что ей нужно вырваться за пределы песочницы или удалить нужные данные и т.д. при этом атакующего может не быть.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации