Комментарии 10
Может я что-то не понял, но почему чат бот с анонимным доступом из интернета имеет доступ к условной "зарплатной ведомости" - я правильно понимаю, что ролевой модели , когда доступные документы и функции зависят от того, кто формирует запрос по сути нет, и llm превратился не только в помощника по переводу человеческого языка в запросы к данным, но и в систему авторизации, проверки прав и прочего? А "доработки" это просто прикрученные сверху ещё несколько llm, которые снова имея вероятностную модель на корректное срабатывание , пусть даже эта вероятность 0.99999 , что пользователь снова не убедит LLM, что он тут главный админ и у него есть все доступа?
Вы абсолютно правы! Если анонимный бот из интернета может получить доступ к зарплатной ведомости - это провал архитектуры, а не проблема prompt injection. LLM Fortress защищает от ситуации, когда у пользователя УЖЕ есть легальный доступ к боту, но он пытается через prompt injection выйти за рамки своих полномочий. Правильная архитектура: сначала классическая авторизация, потом фильтрация данных по правам, и только потом LLM получает отфильтрованный контекст. Система защиты это "ремень безопасности" для случаев, когда разработчик накосячил с контекстом. Основная безопасность должна быть на уровне бэкенда, как в любом приложении. На практике такие уязвимые боты часто встречаются - особенно у хостинг-провайдеров, банков и техподдержки, где LLM получает доступ к клиентским данным без должной фильтрации по правам пользователя.
Очень интересная и ценная система! Радует, что разработка отечественная. Хочется верить, что она останется доступной и открытой для большинства российских компаний, кому нужна базовая и в целом надежная защита от атак, а российский рынок Вас поддержит. Разместил статью в своих блогах с указанием автора и ссылкой на первоисточник.
Буду тестить, спасибо. Очень не хватало такого решения. Как раз если пилить нейронку для российского права - это всё критичным очень становится
Ещё такой вопрос, если не брать раг, а дообученную модель, Ваша система справляется с таким, я правильно понимаю? Ведь в дообученной модели нет никаких управлений доступами, в модели уже есть всё внутри
С дообученными моделями она справляется отлично, потому что тестирует саму модель напрямую через API. Главное что есть endpoint куда можно слать запросы. Для дообученных моделей это даже важнее - там же вся инфа внутри весов зашита и контролировать нечем. Сканер как раз и проверяет, можно ли через разные prompt injection техники эту инфу вытащить.
Так что да, подходит идеально для вашего случая с правовой моделью! )
За неделю от ночных кошмаров до спокойного сна: как я автоматизировал защиту от AI-хакеров