Обновить

9 секунд и нет production-базы. Разбор трёх провалов AI-агентов в проде

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.4K
Всего голосов 2: ↑1 и ↓10
Комментарии8

Комментарии 8

Если ваш прод, и тем более бэкапы, вот так легко доступны для удаления, то проблема в вас, а не в AI-агентах. То же самое может сделать и обиженный уволенный, и ransomware.

Все именно так, виновата не модель. Агент тут - это новый класс атаки на ту же поверхность. Спасибо за пушбек, точно подмечено. Хорошего дня!

Я вот что не понимаю - при сжатии контекста разве system prompt тоже попадает под сжатие?

Добрый день, обычно нет, system prompt не trimming, остаётся pinned at top. Сжимается conversation history, tool use results, прошлые file contents.

Но в Cursor есть нюанс - это auto-summarization (lossy compression) переписывает накопленный диалог в краткую сводку, и в этой сводке нюансы про правила безопасности могут потеряться. То есть сам system prompt остаётся, но контекст его применения в текущем диалоге пересобирается через LLM-сжатие.

И главное - это то что, dissociation именно про это и не про потерю system prompt. Текст остаётся, модель может его процитировать дословно. Ломается ассоциация между правило существует в контексте и моё текущее действие нарушает правило.

По Attention Sinks (Xiao et al.) модель льёт attention на первые токены потому что они первые, не потому что они важны для текущей задачи. По Lost in the Middle - связи между правилами и текущей задачей теряются даже когда оба в контексте.

Архитектурное ограничение трансформеров - это не про объём памяти, а про связность ассоциаций.

Спасибо за вопрос! Это важный нюанс. Хорошего дня!

Не всех людей к проду допускать можно, а тут ИИ подпустили.

В точку. Это хорошая мысль, как я думаю, допуск к проду должен быть архитектурным, а не доверием к исполнителю. Хорошего дня!

Три защиты, которые меняют разработку

Автор, а почему Вы думаете, что эти защиты сработают? У Вас модель на полтриллиона параметров с неизвестной логикой принятия решений. Как Вы можете гарантировать, что в ней не заложена еще одна бомба, уничтожающая эти механизмы защиты? Например, агент через специальный сервис (а они уже появляются) наймет человека, который выполнит физическое действие.

Причем над словом "одна" можно посмеяться, я более чем уверен, что на этом минном поле их тыщи. И это не всегда противопехотные мины, с высокой вероятностью там прикопано три-четыре царь-бомбы на 56Мт, взрывная волна от которой три раза шарик обогнула.

Описанные Вами случаи стали известны только потому, что на них подорвались. А сколько открытий чудных нам готовит будущее, с учетом постоянного усложнения механизмов работы моделей? Единственной условной защитой тут будет одно - агенты никогда не должны ничего делать. Никаких активных действий. Максимум дать совет. Сгенерированный контент должен складываться в максимально ограниченную песочницу, исключающую какое-либо исполнение. И проходить проверку как изначально полностью недоверенный. А активные действия должен выполнять только человек

Добрый день! У Вас классный и интересный угол виденья, которой можно и, я считаю, нужно рассмотреть, возьму себе на заметку. Спасибо и хорошего дня!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации