Комментарии 4
Да ии агенты все больше получают доступа к какой-либо важной информации и главное действиям с базами внутри компаний. Мне тут недавно попадалась новость, что в meta их чат бот из-за действий злоумышленников сменил email для известных знаменитостей. Сейчас уже вроде закрыли баг, но как видите даже крупные компании от такого не застрахованы.
AI Firewall с тремя уровнями доступа – корректная архитектура, но с одним изъяном: она работает против "агентов 2024 года", которые действуют предсказуемо. Агент, обученный обходить ограничения, разобьёт 10 000 операций на 10 000 "невинных" – каждая пройдёт ALLOW. Настоящий контроль требует понимания намерений, а не отдельных действий. А это, по иронии, снова задача для AI.
Firewall Sara Coner + заряд тротила закрепить на всех гпу.
Согласен. В каком-то смысле это вечная игра между правилами и способами их обхода 🙂 Если контролировать только отдельные действия, всегда можно разложить нежелательный сценарий на тысячу формально разрешённых шагов. Поэтому мне кажется, что следующий этап развития таких систем - це уже анализ намерений, целей и всей цепочки действий агента, а не только проверка отдельных операций. Здесь уже действительно появляется интересная ирония: для контроля AI может понадобиться ещё один AI.

AI-агентам скоро понадобится собственный Firewall. И вот почему