Комментарии 2
Верно подмечено про orchestration layer. Добавлю: это не баг, это архитектурная особенность. Базовая модель обучена с RLHF и имеет встроенные ограничения. Но когда сверху надстраивают RAG + tools + system prompt — каждый слой расширяет поверхность атаки, и при этом никакого дополнительного safety-обучения нет. По сути чем “умнее” бот (больше инструментов, длиннее контекст, больше автономии) — тем он уязвимее. Поэтому внешний аудит агентных систем и базовых моделей — это принципиально разные задачи.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?