python_leader25 окт 2025 в 13:04

Парадокс безопасности локальных LLM

Простой

7 мин

19K

Программирование * Машинное обучение * Искусственный интеллектБудущее зде��ьNatural Language Processing *

Аналитика

Перевод

-1

Комментарии 12

MountainGoat 25 окт 2025 в 13:46

Срочно в номер! Если сказать LLM написать малварь - она напишет малварь! Никогда такого не было (и вот опять).

Если разработчик не читает, что ему нагенерила LLM, то это не разработчик а макака - потому что нажимать Enter не читая может и макака.

wowka999 25 окт 2025 в 13:54

Повелся на заголовок, а по итогу мне рассказали про то, что если я отправляю в llm произвольный промпт из интернета, то должен быть готов к тому, что он «вредоносный». К сожалению, пришлось отложить чтение статей про SQL инъекции и XSS атаки, но рад, что удалось прочитать такую полезную статью (нет).

Moog_Prodigy 25 окт 2025 в 17:21

Так это и хорошо, что локальная модель меньше зацензурена. В этом и смысл, кроме безопасности собственно. Ну а если вы дали локальной модели права что-то менять в инфраструктуре, и к ней каким-то образом пробился злоумышленник - ну тут ССЗБ, все по теории сыра с дырками.

georgiy08 25 окт 2025 в 17:27

Вероятно "безопасность" локальных LLM означает то, что введённые данные вряд-ли кому-то будут отправлены, а не "сгенерирован опасный код". Точно такой же код и облачная модель может при определенных обстоятельствах сгенерировать .

esisl 25 окт 2025 в 19:03

Странная затея. Но как элемент атаки - "ну ок"
Правда на уровне разработки, тут нужен недоджун-индус вставляющий китайский промпт найденный на лучшеКорейском сайте...

Stilax322 25 окт 2025 в 20:10

Продуктивные системы…

Статеless…

Интересно, переводчики использовали on-premise или облачные решения для генерации этого перевода🤔? А может быть это наглядная демонстрация главного вывода этой статьи - проверяйте нагенеренный контент перед запуском/публикацией?

akakoychenko 25 окт 2025 в 20:30

...или просто автор последовал примеру инста-блоггеров, намеренно говорящих экспрессо, чтобы прогарантировать себе 10 комментариев в первую минуту после публикации

DarkGenius 26 окт 2025 в 13:27

Если атакующий может деплоить произвольный код в прод, то брешь в безопасности не в LLM

evseevvd 26 окт 2025 в 14:44

ХА-ха, так любое решение которое разворачивается на частной инфраструктуре является априори уязвимым (admin/admin на домашнем роутере, ппц как защищён роутер), эт первое.

А как так получается что ИИ развёрнут в частной или корпоративной сети и сидит чувак в той же сети который генерит бэкдоры? Смешно!!!! Сам себе злобный Буратино.

Автор, разделяй мухи от котлет, есть решение/инструмент который требует и профилактики и обслуживания и техники безопасности!

EriIaz 26 окт 2025 в 23:17

GPT-OSS-20B
Более слабые возможности рассуждения

Не, ну вы бы ещё взяли GPT-2 1.5B...
Локально можно и Qwen3 235B-A22B развернуть, и много чего ещё. Рассчитывать на рассуждения модели как на защиту - глупо, но строго говоря, такие модели совсем недалеко по возможностям от пропиетарных сервисов.

Бэкдор

Зачем нейросети права на выполнение произвольного кода? Кто-то в здравом уме так вообще делает? Зачем?
Я не безопасник, не программист вообще, но на мой взгляд адекватная архитектура безопасности выглядит так: нейросеть не имеет прав выполнять никакой код самостоятельно, вместо этого она пользует заранее подготовленные для неё инструменты в изолированной среде выполнения. Доступ к информации, в свою очередь, должен быть не прямым, а строго ограниченным правами доступа конкретного пользователя. Если пользователю не положено что-то видеть, то и нейросеть видеть это не должна во время выполнения запроса. Таким данные вообще не должны существовать с точки зрения нейронки. Короче, доверять ей нужно не больше, чем стажёру или сотруднику на испытательном сроке. И уж точно не больше, чем ее пользователю.

Вообще, никто и не говорит, что локальные модели априори безопасны, вот прям во всех случаях и при любой реализации их применения. Локальная модель лучше только в двух вещах: отсутствием передачи данных третьей стороне и полным контролем над исполнением запросов. Поэтому сервисы не подходят для работы с любыми конфиденциальными и ДСПшными данными. Поэтому они менее предпочтительны, а не потому что их сложнее применить как вектор атаки.

Могут нарушать условия провайдера

Очевидный вектор DDoS атаки же. Если есть доступ к ассистенту, и мы знаем что он работает через сервис, просто заставляем генерировать похабщину и чернуху в промышленных масштабах, пока провайдер не забанит доступ.

sidewinder1 28 окт 2025 в 22:05

О какой атаке может быть речь, если локальная модель ради приватности отключена от интернета? А если она не отключена - то зачем она нужна локально?

ekiyasheva 12 ноя 2025 в 23:28

Приветствую.
Тема кажется интересной с т.з. оценки безопасности нового инструмента. Но суть экспериментов выглядит уж слишком лабораторной… Если не затруднит, раскройте, пожалуйста, практическую часть проблемы. :)
Я нафантазировала 2 возможных:

локальные ИИ могут генерировать вредоносный код с отложенным действием, ок. Но ИИ же не пушат изменения в репозиторий (я надеюсь)? Положим мы имеем дело с обиженным сотрудником, который вредит намеренно (что он может сделать и без ИИ), почему этого не отловил другой девелопер на ревью? Или этот девелопер ревьюит с помощью ИИ? Как будто не хватает описания живого процесса, ситуации в которой возникают описанные риски.
Допустим вы говорите о незащищенности ИИ. Некто извне может внедриться в нее и научить всякому, что она постоянно будет генерировать инъекции. Тогда решение выглядит как "припарка", было би интересно узнать, как защита ИИ отличается от любого другого сервиса, web-сервера, например. Или наоборот, как стандартные защиты не работают.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий