Комментарии 10
Если ваш прод, и тем более бэкапы, вот так легко доступны для удаления, то проблема в вас, а не в AI-агентах. То же самое может сделать и обиженный уволенный, и ransomware.
Я вот что не понимаю - при сжатии контекста разве system prompt тоже попадает под сжатие?
Добрый день, обычно нет, system prompt не trimming, остаётся pinned at top. Сжимается conversation history, tool use results, прошлые file contents.
Но в Cursor есть нюанс - это auto-summarization (lossy compression) переписывает накопленный диалог в краткую сводку, и в этой сводке нюансы про правила безопасности могут потеряться. То есть сам system prompt остаётся, но контекст его применения в текущем диалоге пересобирается через LLM-сжатие.
И главное - это то что, dissociation именно про это и не про потерю system prompt. Текст остаётся, модель может его процитировать дословно. Ломается ассоциация между правило существует в контексте и моё текущее действие нарушает правило.
По Attention Sinks (Xiao et al.) модель льёт attention на первые токены потому что они первые, не потому что они важны для текущей задачи. По Lost in the Middle - связи между правилами и текущей задачей теряются даже когда оба в контексте.
Архитектурное ограничение трансформеров - это не про объём памяти, а про связность ассоциаций.
Спасибо за вопрос! Это важный нюанс. Хорошего дня!
Не всех людей к проду допускать можно, а тут ИИ подпустили.
Три защиты, которые меняют разработку
Автор, а почему Вы думаете, что эти защиты сработают? У Вас модель на полтриллиона параметров с неизвестной логикой принятия решений. Как Вы можете гарантировать, что в ней не заложена еще одна бомба, уничтожающая эти механизмы защиты? Например, агент через специальный сервис (а они уже появляются) наймет человека, который выполнит физическое действие.
Причем над словом "одна" можно посмеяться, я более чем уверен, что на этом минном поле их тыщи. И это не всегда противопехотные мины, с высокой вероятностью там прикопано три-четыре царь-бомбы на 56Мт, взрывная волна от которой три раза шарик обогнула.
Описанные Вами случаи стали известны только потому, что на них подорвались. А сколько открытий чудных нам готовит будущее, с учетом постоянного усложнения механизмов работы моделей? Единственной условной защитой тут будет одно - агенты никогда не должны ничего делать. Никаких активных действий. Максимум дать совет. Сгенерированный контент должен складываться в максимально ограниченную песочницу, исключающую какое-либо исполнение. И проходить проверку как изначально полностью недоверенный. А активные действия должен выполнять только человек
Добрый день! У Вас классный и интересный угол виденья, которой можно и, я считаю, нужно рассмотреть, возьму себе на заметку. Спасибо и хорошего дня!
То, что надо аккуратно раздавать ролям права доступа к ресурсам, а сотрудников аккуратно назначать на роли - это банальность, которую должны знать все профессионалы.
С агентами мы имеем проблемы, что они могут набедокурить в общении с клиентами. Контролировать можно регулярками (в случае вывода текстов) либо другими агентами.
Оба метода ненадежны.
Вот это реальная проблема, по моему мнению.
Добрый день! У Вас приведено точное разделение. В первой части я фокусировался на action control - что агент делает в системе (бд, файлы, deploy). То что Вы выделили - output control, что агент говорит пользователю - другая axis, и в статье я её не разбирал.
И про regex + agent-validates-agent, Вы правы - это ненадежно. Что я видел работающим на проде (AI-помощник для тендеров): hard guardrail ДО llm вызова (юр.вопрос, потом отказ + redirect, без передачи в модель) плюс post-classifier на ответе. Не один метод, а cascade с разными типами проверок.
Во второй части как раз про это, где границы между моделью и обвязкой, и почему обвязка - это не один permission gate, а несколько слоёв. Спасибо, хорошего дня!

9 секунд и нет production-базы. Разбор трёх провалов AI-агентов в проде