Обновить

Комментарии 7

Middleware в виде нейронки по схеме обучения с учителем для классификации промптов на опасные и безопасные. Первые блокируются, остальные пропускаются. - это если я правильно понял смысл статьи.

Частично верно, но есть несколько ключевых отличий от классического middleware-классификатора:

1. Не одна нейронка, а рой (Swarm) Вместо одного большого классификатора (BERT, 110M параметров, нужен GPU) — 4+ специализированных микро-модели по <2000 параметров каждая. Каждая смотрит на свой аспект текста: лексика, паттерны, структура, информационная теория. Мета-модель агрегирует их мнения. Это принципиально иной подход — ensemble специалистов, а не один универсал.

2. Не supervised learning в классическом смысле Модели обучены не на парах «промпт → метка», а на 22-мерном числовом вектор-представлении текста: энтропия Шеннона, плотность спецсимволов, рейтинг ключевых слов, compression ratio и т.д. Классифицируется не текст, а его статистический отпечаток. Поэтому даже атаки с Unicode-подменой или zero-width символами (которые ломают keyword-детекцию) — ловятся.

3. Не только middleware Swarm — это третий слой из трёх:

  • Shield (C) — сетевой DMZ, eBPF, rate limiting

  • 49 Rust-движков — паттерн-матчинг, структурный анализ

  • Micro-Swarm (Python) — ML-классификация того, что пропустили первые два слоя

Базовая идея — да, промпт проходит через pipeline, и если score > threshold, запрос блокируется. В этом смысле — middleware. Только очень быстрый и многослойный.

Если вместо нескольких моделей сделаете одну, то итоговые результаты должны улучшиться. Не слои объединить, а создать одну модель на слой. Такие у меня были результаты.

Классифицируется не текст, а его статистический отпечаток.

Мне нравится такой подход; тоже пробовал - результат у меня был неоднозначный.

Проблематика масштабирования отказоустойчивости, одна модель монолит, не надежно, много мелких, ну упадёт одна, 10, остальные продолжат работать.

Такое ощущение, что и сама статья написана с помощью ИИ с минимальным редактированием и исходный код тоже ИИ писал активно. И по самому названию Sentinel - довольно любимое слово у ИИ в данном контексте

Осталось написать такой же сервис гвардов (guardrails) от утечек данных, опасных промптов на этику и Перс Датку, и тп. А не ток атаки.

это и есть покрытие полностью защиты, другое дело я только делаю защиты от Heretic, тоже тематика очень интересная, его буду встраивать в том числе как и атакующий и как защитный слой, интересная вещь конечно оказалась)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации