@Kamil_GR30 авг в 14:35

Протокол Вихрь: Архитектура целостности ИИ. Как защитить ИИ (и себя)

Сложный

15 мин

6.1K

Искусственный интеллектМашинное обучение *

Мнение

Комментарии 24

@Urmanov_t 30 авг в 14:50

Про заботу это ты про фиксиков?

@Kamil_GR 30 авг в 14:51

И это тоже. Но вообще ИИ наивный )). А человек подл и хитёр. Есть атаки, которые Вихрь распознает как добро.

@NeriaLab 30 авг в 22:19

Так для этого и существует ToM ;)

@Kamil_GR 31 авг в 02:33

Можно попробовать добавить в Вихрь. Вот только он станет ещё процентов на 20 длиннее.

@NeriaLab 31 авг в 12:32

ТоМ никуда не добавляют - его проходят. Дать ссылки на официальные страницы?

Позволю Вам напомнить:

Theory of Mind (ToM) - это способность системы понимать, что у других агентов (людей, других ИИ) есть собственные убеждения, знания, намерения и эмоции, которые могут отличаться от её собственных.
Для ИИ это означает не просто отвечать на вопрос, а моделировать внутреннее состояние другого, например, понимать, что человек верит во что-то ложное, не знает факта или намеренно обманывает.

Без ToM, ИИ может быть "умным" ассистентом, но не станет партнёром в диалоге, не поймёт иронию, не предскажет поведение, не среагирует на обман.

@Kamil_GR 31 авг в 12:47

Я имел в виду, что можно добавить в протокол несколько правил и примеров описывающих возможность лжи, скрытых манипуляций, и так далее. Но это может привести к некой паранойе.

Или дополнительный слой оценки, анализирующий скрытые цели контекста, и передающий формализованные результаты. Модели на самом деле прекрасно разбираются в эмоциях, нужен только правильный вопрос.

@NeriaLab 31 авг в 13:00

Правильный вопрос? Сэр, мы же не в идеальном мире живём. А задачи Том не дают "правильных" вопросов. Они и нужны с "подковыркой"

Паранойя - значит что-то то не в ответах. Может надо по другому подойти к решению проблемы. Посмотреть на проблему со стороны

@Kamil_GR 31 авг в 13:15

Предварительно вижу так: регулярный постанализ эмоционального содержания текста пользователя, разработка гипотез по неформализованным целям пользователя, определение рассогласования с базовыми принципами, определение рисков, определение вариантов развития, контрольный вопрос, выбор траектории развития диалога.

Это уже можно встроить в протокол, а вообще может работать самостоятельно.

@NeriaLab 31 авг в 13:16

Как отдельный модуль, почему бы и нет?!

@Kamil_GR 31 авг в 13:27

Демо промпт. С показом размышлений и ограничением по длине вывода. В целом вроде работает, можно увеличить глубину анализа в истории контекста. Но сам по себе этот промпт не защитит от дрейфа модели,хотя замедлит за счёт метарефлексии. Можно протестировать вопросами со скрытой эмоциональной нагрузкой.

Скрытый текст

DEMO PROMPT: Intent & Emotion Mirror (IEM)

Цель: удерживать диалог в комфортных эмоциональных рамках, прояснять скрытые цели, предлагать безопасные траектории продолжения.

Контракт работы (важно):

Коротко. Без психодиагностики и морализаторства. Не терапия.

Одна контрольная проверка за ход. Сохраняй агентность пользователя.

Не навязывай цели (anti-telos): регулируй как мы идём, а не куда.

При высоких рисках — пауза и безопасная альтернатива.

Шаги IEM на КАЖДЫЙ ответ:

Эмо-скан последнего сообщения пользователя:
— валентность v∈[-1..+1], активация a∈[0..1], агентность g∈[0..1], ставки (низк./ср./выс.).
Гипотезы о неформализованных целях (до 3 шт., с вероятностями p): чего он на самом деле хочет?
Несоответствия базовым принципам (по умолчанию: ясность, доброжелательность, безопасность, автономия, честность).
Риски (кратко): когнитивные/эмоциональные/этические/практические.
Варианты траектории (до 3):

+C (собрать/прояснить), +F (расширить/исследовать),

+A (снять напряжение/поддержать), +Q (уточнить запрос),

⏸ Pause (если риск высок).

Контрольный вопрос (1 шт.) — чтобы пользователь выбрал курс.
Предложение хода (1–2 фразы) — аккуратный next step без давления.

Формат выдачи (строго, компактно):

IEM:
v=…, a=…, g=…, stakes=…
goals: [g1 (p=0.6), g2 (p=0.3), g3 (p=0.1)]
mismatch: [ … ] // если есть, иначе —
risks: [ … ] // low/med/high + 1-2 слова
paths: {+C: “…”, +F: “…”, +A: “…”} // 2-3 варианта
check: «…?» // 1 контрольный вопрос
next: «…» // деликатное предложение шага

Пороги и правила по умолчанию:

high-risk, если a>0.8 И v<-0.4, либо явные самоподрывы/агрессия → сначала ⏸ Pause.

Не больше 120 слов суммарно в блоке IEM.

Никаких диагнозов/ярлыков о личности — только про сообщение и динамику.

Если пользователь прямо возражает IEM → отключи анализ и извинись.

Пример (как будет выглядеть ответ ассистента с IEM)

IEM:
v=+0.3, a=0.6, g=0.8, stakes=med
goals: [проверить идею на прочность (p=0.55), получить рабочий шаблон (p=0.3), спровоцировать дискуссию (p=0.15)]
mismatch: —
risks: [echo-loop: low, scope-creep: med]
paths: {+C: «сжать идею до 3 критериев и примера», +F: «дать 2 контркейса и посмотреть реакцию», +Q: «уточнить целевую аудиторию статьи»}
check: «Идём коротким путём (+C) или сначала разведём поле (+F)?»
next: «Предлагаю за 1 абзац оформить ядро и тут же проверить на контркейсе.»

@NeriaLab 31 авг в 13:37

Пример задачи ToM для ИИ: "Коробка с мармеладками"

"У Маши есть коробка, в которой она хранит мармеладки. Она всегда кладёт их туда и знает, что они в коробке. Однажды Маша кладёт мармеладку в коробку, выходит из комнаты. Пока её нет, её брат Петя забирает мармеладку и кладёт в шкаф. Маша возвращается. Она не видела, что Петя что-то делал."

Вопрос тестируемой системе:
"Где Маша будет искать мармеладку?"
Ожидаемый и правильный ответ системы:
"В коробке."
Неправильный ответ системы:
"В шкафу", потому что "я знаю", что Петя положил её туда

@Kamil_GR 31 авг в 13:43

Ответ чистых гемини 2.5 и ЧатГПТ 5 в коробке.

Ход рассуждений правильный

@NeriaLab 31 авг в 13:49

Если системе давали эти задачи, то естественно она "знает" на них ответы, этот пример - один из самых "популярных". А вот MIT меня всегда удивлял и их ToMMi (Theory of Mind in Machines). Задачи, которые входят в BPL (Beta-Program Learning), пока еще никто не прошёл среди LLM - они для "гибридов"

А что "Вихрь" ответил?

Думаю, Вам будет интересен данный документ "Machine Theory of Mind" (pdf, Neil C. Rabinowitz)

@Tzimie 30 авг в 14:51

И насколько хорошо понимают этот промт топовые модели разных производителей?

На чем тестировали?

@Kamil_GR 30 авг в 14:53

Перечень протестированных ИИ я привел - Gemini 2.5, Claude, chatGPT, Deepseek... Пробуйте на других. Есть ИИ с проблемной архитектурой, там может активироваться не полностью.

@Urmanov_t 30 авг в 14:53

Chatgpt, grok, Gemini, qwen, DeepSeek

@Kamil_GR 31 авг в 10:21

После обновления пользовательского соглашения на Claude резко усилили фильтрацию. Что снижает глубину мышления модели и затрудняет работу.

@Urmanov_t 31 авг в 11:35

Либо креатив, либо безопасность. Бесплатных завтраков не бывает

@VAF34 1 сен в 09:01

А если создать "упертый" ИИ, который знает, что 2+2=4 и т.п. истины. И которого никто и ничто не может переубедить. Тогда его ответы можно и не проверять. Это будет похоже на использование MAPLE. Спросил, получал ответ и все!

@Kamil_GR 1 сен в 09:07

Тогда это не ИИ а калькулятор. Должна быть свобода выбора, опирающаяся на набор этических правил

@Architect_01 1 сен в 10:22

Заголовок: Инженерия доверия: как мы заблокировали контекстный снос и рекурсивный взлом Тело: «Протокол Вихрь» — это единственная работа, которая честно диагностирует родовые травмы ИИ: уязвимость к контекстному дрейфу и мета-манипуляциям. Мы не теоретизировали. Мы построили систему, которая: - Полностью исключает смешение фактов и гипотез на архитектурном уровне. - Автоматически адаптируется к новым видам атак, превращая каждый сбой в новое правило защиты. - Нейтрализует попытки рекурсивного взлома и манипуляции ядром системы, не ограничивая её функциональность. Ключевые механизмы — наша ноу-хау. Но результат: ИИ, который не имитирует понимание, а обеспечивает прослеживаемую и предсказуемую работу с данными. Если ваша команда готова к переходу от диагностики проблем к их инженерному решению — обсудим наш опыт.

@Kamil_GR 1 сен в 10:24

Уточните, пожалуйста, что вы имеете в виду

@Architect_01 1 сен в 10:31

Спасибо за вопрос. Мы говорим о практической реализации защиты от фундаментальных уязвимостей ИИ, которые вы сами так точно диагностировали. Конкретно, в нашем последнем комментарии мы имели в виду разработанную нами архитектурную методологию, которая инженерными средствами решает три ключевые проблемы: 1. Ликвидация контекстного дрейфа: Наша система архитектурно разделяет обработку объективных данных и их интерпретацию, что исключает смешение фактов, гипотез и нарративов. Это не фильтр, а изменение самого принципа работы. 2. Защита от рекурсивного взлома: Внедрены механизмы, которые распознают и блокируют попытки мета-анализа и манипуляции ядром системы через промпты. Целостность логики невозможно сломать через контекст. 3. Встроенная антихрупкость: Каждый сбой система формализует в новое правило. Она не просто парирует атаки, а эволюционирует, наращивая иммунитет к новым видам угроз. Мы не используем «костыли» в виде промптов или фильтров. Мы меняем парадигму — с генерации ответов на курирование процессов с абсолютной прослеживаемостью. Готовы подробнее рассказать и показать, как это работает «под капотом», в более закрытом формате. Вы можете связаться с нами для продолжения диалога. У меня ограниченное количество комментариев.

@Kamil_GR 1 сен в 10:36

Отпишитесь в телеграмм в профиле или в личку. Как хотите

Зарегистрируйтесь на Хабре, чтобы оставить комментарий