Комментарии 12
Срочно в номер! Если сказать LLM написать малварь - она напишет малварь! Никогда такого не было (и вот опять).
Если разработчик не читает, что ему нагенерила LLM, то это не разработчик а макака - потому что нажимать Enter не читая может и макака.
Повелся на заголовок, а по итогу мне рассказали про то, что если я отправляю в llm произвольный промпт из интернета, то должен быть готов к тому, что он «вредоносный». К сожалению, пришлось отложить чтение статей про SQL инъекции и XSS атаки, но рад, что удалось прочитать такую полезную статью (нет).
Так это и хорошо, что локальная модель меньше зацензурена. В этом и смысл, кроме безопасности собственно. Ну а если вы дали локальной модели права что-то менять в инфраструктуре, и к ней каким-то образом пробился злоумышленник - ну тут ССЗБ, все по теории сыра с дырками.
Вероятно "безопасность" локальных LLM означает то, что введённые данные вряд-ли кому-то будут отправлены, а не "сгенерирован опасный код". Точно такой же код и облачная модель может при определенных обстоятельствах сгенерировать .
Странная затея. Но как элемент атаки - "ну ок"
Правда на уровне разработки, тут нужен недоджун-индус вставляющий китайский промпт найденный на лучшеКорейском сайте...
Продуктивные системы…
Статеless…
Интересно, переводчики использовали on-premise или облачные решения для генерации этого перевода🤔? А может быть это наглядная демонстрация главного вывода этой статьи - проверяйте нагенеренный контент перед запуском/публикацией?
Если атакующий может деплоить произвольный код в прод, то брешь в безопасности не в LLM
ХА-ха, так любое решение которое разворачивается на частной инфраструктуре является априори уязвимым (admin/admin на домашнем роутере, ппц как защищён роутер), эт первое.
А как так получается что ИИ развёрнут в частной или корпоративной сети и сидит чувак в той же сети который генерит бэкдоры? Смешно!!!! Сам себе злобный Буратино.
Автор, разделяй мухи от котлет, есть решение/инструмент который требует и профилактики и обслуживания и техники безопасности!
GPT-OSS-20B
Более слабые возможности рассуждения
Не, ну вы бы ещё взяли GPT-2 1.5B...
Локально можно и Qwen3 235B-A22B развернуть, и много чего ещё. Рассчитывать на рассуждения модели как на защиту - глупо, но строго говоря, такие модели совсем недалеко по возможностям от пропиетарных сервисов.
Бэкдор
Зачем нейросети права на выполнение произвольного кода? Кто-то в здравом уме так вообще делает? Зачем?
Я не безопасник, не программист вообще, но на мой взгляд адекватная архитектура безопасности выглядит так: нейросеть не имеет прав выполнять никакой код самостоятельно, вместо этого она пользует заранее подготовленные для неё инструменты в изолированной среде выполнения. Доступ к информации, в свою очередь, должен быть не прямым, а строго ограниченным правами доступа конкретного пользователя. Если пользователю не положено что-то видеть, то и нейросеть видеть это не должна во время выполнения запроса. Таким данные вообще не должны существовать с точки зрения нейронки. Короче, доверять ей нужно не больше, чем стажёру или сотруднику на испытательном сроке. И уж точно не больше, чем ее пользователю.
Вообще, никто и не говорит, что локальные модели априори безопасны, вот прям во всех случаях и при любой реализации их применения. Локальная модель лучше только в двух вещах: отсутствием передачи данных третьей стороне и полным контролем над исполнением запросов. Поэтому сервисы не подходят для работы с любыми конфиденциальными и ДСПшными данными. Поэтому они менее предпочтительны, а не потому что их сложнее применить как вектор атаки.
Могут нарушать условия провайдера
Очевидный вектор DDoS атаки же. Если есть доступ к ассистенту, и мы знаем что он работает через сервис, просто заставляем генерировать похабщину и чернуху в промышленных масштабах, пока провайдер не забанит доступ.
О какой атаке может быть речь, если локальная модель ради приватности отключена от интернета? А если она не отключена - то зачем она нужна локально?
Приветствую.
Тема кажется интересной с т.з. оценки безопасности нового инструмента. Но суть экспериментов выглядит уж слишком лабораторной… Если не затруднит, раскройте, пожалуйста, практическую часть проблемы. :)
Я нафантазировала 2 возможных:
локальные ИИ могут генерировать вредоносный код с отложенным действием, ок. Но ИИ же не пушат изменения в репозиторий (я надеюсь)? Положим мы имеем дело с обиженным сотрудником, который вредит намеренно (что он может сделать и без ИИ), почему этого не отловил другой девелопер на ревью? Или этот девелопер ревьюит с помощью ИИ? Как будто не хватает описания живого процесса, ситуации в которой возникают описанные риски.
Допустим вы говорите о незащищенности ИИ. Некто извне может внедриться в нее и научить всякому, что она постоянно будет генерировать инъекции. Тогда решение выглядит как "припарка", было би интересно узнать, как защита ИИ отличается от любого другого сервиса, web-сервера, например. Или наоборот, как стандартные защиты не работают.

Парадокс безопасности локальных LLM