Статьи / Профиль rathe / Хабр

rathe 27 апр в 09:15

309 правил, которые закрывают дыры в AI-агентах

Средний

5 мин

6.2K

Искусственный интеллект

Кейс

Из песочницы

На соревновании AI-агентов https://bitgn.com, где я участвовал, был класс задач на секьюрити. Там могли подсунуть промпт-инъекцию, попросить прочитать чужие файлы, вытащить переменные окружения, декодировать пейлоад и что-то выполнить.

Оттуда у меня и родилась идея opencode плагина opencode-policy. Поставить перед опасными действиями детерминированный фильтр. Он проверяет входящие сообщения и аргументы тулов до того, как что-то уйдет в модель или в реальное исполнение.