Обновить

Почему ИИ-боты более уязвимы, чем их базовые LLM-модели?

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели7.6K
Рейтинг0
Комментарии2

Комментарии 2

Верно подмечено про orchestration layer. Добавлю: это не баг, это архитектурная особенность. Базовая модель обучена с RLHF и имеет встроенные ограничения. Но когда сверху надстраивают RAG + tools + system prompt — каждый слой расширяет поверхность атаки, и при этом никакого дополнительного safety-обучения нет. По сути чем “умнее” бот (больше инструментов, длиннее контекст, больше автономии) — тем он уязвимее. Поэтому внешний аудит агентных систем и базовых моделей — это принципиально разные задачи.

Абсолютно с вами согласен! Вы очень точно сформулировали суть- это именно архитектурная уязвимость, а не просто баг конкретной модели. Переход от тестирования генерации текста (базовая модель) к тестированию среды исполнения (агент) — это сейчас главный сдвиг в ИИ-безопасности.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации