Lexx_Nimofff30 июн в 11:19

Агенты удаляют файлы, сливают данные и сами себя взламывают: как устроена безопасность ИИ‑систем в 2026 году

Простой

10 мин

8.8K

Искусственный интеллектИнформационная безопасность * Интервью

Интервью

+11

Комментарии 3

srzybnev 30 июн в 12:17

Годно!

vadisun 30 июн в 12:31

Спасибо, хороший разбор. Для себя вынес простую мысль: агенту лучше ограничивать не только промптом, но и реальными правами.

Если он не должен трогать файлы, сеть или отправку данных, то этих действий у него просто не должно быть в инструментах. Было бы интересно увидеть отдельный чек-лист минимальных прав для таких систем.

fire64 30 июн в 12:50

Вы исходите из того, что для этих проблем обязательно должна быть внешняя атака и атакующий, желающий нанести вред или украсть какие-то данные.

Конечно вы написали про No-prompless-атаки, но тоже в рамках возможного вектора атаки со стороны атакующего.

Но при этом не учитываете то, что атакующего может и не быть.

Модель действительно может сама в процессе выполнения определенной задачи принять решение, что ей нужно вырваться за пределы песочницы или удалить нужные данные и т.д. при этом атакующего может не быть.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий