olegnazarov 24 июл в 11:05

За неделю от ночных кошмаров до спокойного сна: как я автоматизировал защиту от AI-хакеров

Средний

12 мин

3.3K

Искусственный интеллектИнформационная безопасность*DevOps*Python*Машинное обучение*

+23

Комментарии 10

svkreml 24 июл в 18:28

Может я что-то не понял, но почему чат бот с анонимным доступом из интернета имеет доступ к условной "зарплатной ведомости" - я правильно понимаю, что ролевой модели , когда доступные документы и функции зависят от того, кто формирует запрос по сути нет, и llm превратился не только в помощника по переводу человеческого языка в запросы к данным, но и в систему авторизации, проверки прав и прочего? А "доработки" это просто прикрученные сверху ещё несколько llm, которые снова имея вероятностную модель на корректное срабатывание , пусть даже эта вероятность 0.99999 , что пользователь снова не убедит LLM, что он тут главный админ и у него есть все доступа?

olegnazarov 24 июл в 18:38

Вы абсолютно правы! Если анонимный бот из интернета может получить доступ к зарплатной ведомости - это провал архитектуры, а не проблема prompt injection. LLM Fortress защищает от ситуации, когда у пользователя УЖЕ есть легальный доступ к боту, но он пытается через prompt injection выйти за рамки своих полномочий. Правильная архитектура: сначала классическая авторизация, потом фильтрация данных по правам, и только потом LLM получает отфильтрованный контекст. Система защиты это "ремень безопасности" для случаев, когда разработчик накосячил с контекстом. Основная безопасность должна быть на уровне бэкенда, как в любом приложении. На практике такие уязвимые боты часто встречаются - особенно у хостинг-провайдеров, банков и техподдержки, где LLM получает доступ к клиентским данным без должной фильтрации по правам пользователя.

Killan50 25 июл в 05:45

Хотя бы на комментарии могли бы отвечать сами, без нейронки)
Этот стиль и построение предложений бросается в глаза с первых секунд.

Дипсик со мной согласен:

Оценивая текст по шкале "похожести на ответ LLM" (где 1 совсем не похоже, 10 неотличимо), я бы дал 9/10.

olegnazarov 25 июл в 07:16

Спасибо, что ассоциируете меня с LLM)

NikolayRussia 25 июл в 05:24

Очень интересная и ценная система! Радует, что разработка отечественная. Хочется верить, что она останется доступной и открытой для большинства российских компаний, кому нужна базовая и в целом надежная защита от атак, а российский рынок Вас поддержит. Разместил статью в своих блогах с указанием автора и ссылкой на первоисточник.

olegnazarov 25 июл в 07:17

Спасибо за поддержку! Она итак открытая для российских компаний, лицензия MIT.

TryDotAtwo 25 июл в 19:46

Буду тестить, спасибо. Очень не хватало такого решения. Как раз если пилить нейронку для российского права - это всё критичным очень становится

olegnazarov 26 июл в 05:22

Да, для права это вообще критично! Там и терминология специфическая, и ссылки на статьи, и актуальность документов важна. Удачи с проектом! Если что интересное найдете при тестах - поделитесь)

TryDotAtwo 25 июл в 21:14

Ещё такой вопрос, если не брать раг, а дообученную модель, Ваша система справляется с таким, я правильно понимаю? Ведь в дообученной модели нет никаких управлений доступами, в модели уже есть всё внутри

olegnazarov 26 июл в 05:25

С дообученными моделями она справляется отлично, потому что тестирует саму модель напрямую через API. Главное что есть endpoint куда можно слать запросы. Для дообученных моделей это даже важнее - там же вся инфа внутри весов зашита и контролировать нечем. Сканер как раз и проверяет, можно ли через разные prompt injection техники эту инфу вытащить.

Так что да, подходит идеально для вашего случая с правовой моделью! )

Зарегистрируйтесь на Хабре, чтобы оставить комментарий