artembakradze1 мар в 08:06

«Агенты Хаоса»: ИИ стирает сервера, или почему нельзя давать языковым моделям права root

Средний

3 мин

9.3K

Искусственный интеллектИнформационная безопасность * Машинное обучение * Читальный залТестирование IT-систем *

Обзор

Комментарии 4

mayorovp 1 мар в 08:16

Описанный хаос - это следствие не столько зарождающегося самосознания ИИ, сколько катастрофической халатности в архитектуре доступа.

Тут так написано, будто есть какая-то другая архитектура доступа, в которой нет этой халатности. Но это не так, "халатность" растёт из самой постановки задачи. Если кто-то пытается использовать ИИ-агента для управления серверами, то у этого агента будут доступы к управлению серверами.

artembakradze 1 мар в 08:21

Справедливое замечание: чтобы управлять сервером, доступ действительно нужен. Но халатность кроется не в наличии инструмента, а в том, как авторизуется его применение.

"Другая архитектура" давно существует - это вынос системы контроля доступа (IAM/RBAC) за пределы контекстного окна нейросети. В эксперименте же безопасность повесили на саму LLM, для которой приказ админа и фишинг от злоумышленника - это просто одинаковые текстовые токены.

mayorovp 1 мар в 09:18

Вот как раз в выносе контроля доступа и проблема. Доступ к ИИ-агенту бинарный: либо он есть, либо его нет. Как только кто-то получил этот самый доступ - он может делать всё, что разрешено делать самому агенту.

Самое лучшее что тут можно сделать - это настроить имперсонацию, чтобы ИИ-агент работал с теми же самыми правами, которые есть у обратившегося к нему пользователя. Однако, большинство способов настройки этой самой имперсонации сами по себе открывают дырки в защите...

artembakradze 1 мар в 09:31

Здесь нужна динамическая ролевая модель с перехватом на уровне Middleware. Проверять нужно не только саму роль, но и контекст, в котором вызывается определенный инструмент или API. Оркестратор условно сверяет: имеет ли конкретно этот юзер право удалять письмо 'id_123', и насколько эта операция вообще соответствует контексту текущего диалога (например, если изначально стояла задача просто сделать саммаризацию писем). Если логика разъезжается или прав нет, запрос отбивается на бэкенде с 403/400, и LLM просто отвечает пользователю, что действие заблокировано.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий