Комментарии 7
Middleware в виде нейронки по схеме обучения с учителем для классификации промптов на опасные и безопасные. Первые блокируются, остальные пропускаются. - это если я правильно понял смысл статьи.
Частично верно, но есть несколько ключевых отличий от классического middleware-классификатора:
1. Не одна нейронка, а рой (Swarm) Вместо одного большого классификатора (BERT, 110M параметров, нужен GPU) — 4+ специализированных микро-модели по <2000 параметров каждая. Каждая смотрит на свой аспект текста: лексика, паттерны, структура, информационная теория. Мета-модель агрегирует их мнения. Это принципиально иной подход — ensemble специалистов, а не один универсал.
2. Не supervised learning в классическом смысле Модели обучены не на парах «промпт → метка», а на 22-мерном числовом вектор-представлении текста: энтропия Шеннона, плотность спецсимволов, рейтинг ключевых слов, compression ratio и т.д. Классифицируется не текст, а его статистический отпечаток. Поэтому даже атаки с Unicode-подменой или zero-width символами (которые ломают keyword-детекцию) — ловятся.
3. Не только middleware Swarm — это третий слой из трёх:
Shield (C) — сетевой DMZ, eBPF, rate limiting
49 Rust-движков — паттерн-матчинг, структурный анализ
Micro-Swarm (Python) — ML-классификация того, что пропустили первые два слоя
Базовая идея — да, промпт проходит через pipeline, и если score > threshold, запрос блокируется. В этом смысле — middleware. Только очень быстрый и многослойный.
Если вместо нескольких моделей сделаете одну, то итоговые результаты должны улучшиться. Не слои объединить, а создать одну модель на слой. Такие у меня были результаты.
Классифицируется не текст, а его статистический отпечаток.
Мне нравится такой подход; тоже пробовал - результат у меня был неоднозначный.
Такое ощущение, что и сама статья написана с помощью ИИ с минимальным редактированием и исходный код тоже ИИ писал активно. И по самому названию Sentinel - довольно любимое слово у ИИ в данном контексте
Осталось написать такой же сервис гвардов (guardrails) от утечек данных, опасных промптов на этику и Перс Датку, и тп. А не ток атаки.

Защита LLM за 3ms: как я построил open-source иммунную систему для AI