Dmitriila16 фев в 02:42

Защита LLM за 3ms: как я построил open-source иммунную систему для AI

Средний

7 мин

11K

Информационная безопасность * Программирование * C * Rust * Python *

Кейс

Recovery Mode

+14

Комментарии 8

alexhu 16 фев в 08:57

Middleware в виде нейронки по схеме обучения с учителем для классификации промптов на опасные и безопасные. Первые блокируются, остальные пропускаются. - это если я правильно понял смысл статьи.

Dmitriila 16 фев в 09:02

Частично верно, но есть несколько ключевых отличий от классического middleware-классификатора:

1. Не одна нейронка, а рой (Swarm) Вместо одного большого классификатора (BERT, 110M параметров, нужен GPU) — 4+ специализированных микро-модели по <2000 параметров каждая. Каждая смотрит на свой аспект текста: лексика, паттерны, структура, информационная теория. Мета-модель агрегирует их мнения. Это принципиально иной подход — ensemble специалистов, а не один универсал.

2. Не supervised learning в классическом смысле Модели обучены не на парах «промпт → метка», а на 22-мерном числовом вектор-представлении текста: энтропия Шеннона, плотность спецсимволов, рейтинг ключевых слов, compression ratio и т.д. Классифицируется не текст, а его статистический отпечаток. Поэтому даже атаки с Unicode-подменой или zero-width символами (которые ломают keyword-детекцию) — ловятся.

3. Не только middleware Swarm — это третий слой из трёх:

Shield (C) — сетевой DMZ, eBPF, rate limiting
49 Rust-движков — паттерн-матчинг, структурный анализ
Micro-Swarm (Python) — ML-классификация того, что пропустили первые два слоя

Базовая идея — да, промпт проходит через pipeline, и если score > threshold, запрос блокируется. В этом смысле — middleware. Только очень быстрый и многослойный.

alexhu 16 фев в 09:20

Если вместо нескольких моделей сделаете одну, то итоговые результаты должны улучшиться. Не слои объединить, а создать одну модель на слой. Такие у меня были результаты.

Классифицируется не текст, а его статистический отпечаток.

Мне нравится такой подход; тоже пробовал - результат у меня был неоднозначный.

Dmitriila 16 фев в 09:22

Проблематика масштабирования отказоустойчивости, одна модель монолит, не надежно, много мелких, ну упадёт одна, 10, остальные продолжат работать.

krox 16 фев в 13:46

Такое ощущение, что и сама статья написана с помощью ИИ с минимальным редактированием и исходный код тоже ИИ писал активно. И по самому названию Sentinel - довольно любимое слово у ИИ в данном контексте

Andriljo 18 фев в 20:05

Осталось написать такой же сервис гвардов (guardrails) от утечек данных, опасных промптов на этику и Перс Датку, и тп. А не ток атаки.

Dmitriila 18 фев в 23:25

это и есть покрытие полностью защиты, другое дело я только делаю защиты от Heretic, тоже тематика очень интересная, его буду встраивать в том числе как и атакующий и как защитный слой, интересная вещь конечно оказалась)

peterplv 5 мар в 14:01

116K строк кода. 49 Rust-движков

А что именно в этих строках и движках? Из описания почти ничего не понятно. Ну, про модели я понял, они легкие и их несколько, они проверяют промпты на зловредное использование, но это пара сотен строк кода (а то и десятков). Остальное это что? Тема интересная, поэтому уточняю

Зарегистрируйтесь на Хабре, чтобы оставить комментарий