Comments 24
Про заботу это ты про фиксиков?
И это тоже. Но вообще ИИ наивный )). А человек подл и хитёр. Есть атаки, которые Вихрь распознает как добро.
Так для этого и существует ToM ;)
Можно попробовать добавить в Вихрь. Вот только он станет ещё процентов на 20 длиннее.
ТоМ никуда не добавляют - его проходят. Дать ссылки на официальные страницы?
Позволю Вам напомнить:
Theory of Mind (ToM) - это способность системы понимать, что у других агентов (людей, других ИИ) есть собственные убеждения, знания, намерения и эмоции, которые могут отличаться от её собственных.
Для ИИ это означает не просто отвечать на вопрос, а моделировать внутреннее состояние другого, например, понимать, что человек верит во что-то ложное, не знает факта или намеренно обманывает.
Без ToM, ИИ может быть "умным" ассистентом, но не станет партнёром в диалоге, не поймёт иронию, не предскажет поведение, не среагирует на обман.
Я имел в виду, что можно добавить в протокол несколько правил и примеров описывающих возможность лжи, скрытых манипуляций, и так далее. Но это может привести к некой паранойе.
Или дополнительный слой оценки, анализирующий скрытые цели контекста, и передающий формализованные результаты. Модели на самом деле прекрасно разбираются в эмоциях, нужен только правильный вопрос.
Правильный вопрос? Сэр, мы же не в идеальном мире живём. А задачи Том не дают "правильных" вопросов. Они и нужны с "подковыркой"
Паранойя - значит что-то то не в ответах. Может надо по другому подойти к решению проблемы. Посмотреть на проблему со стороны
Предварительно вижу так: регулярный постанализ эмоционального содержания текста пользователя, разработка гипотез по неформализованным целям пользователя, определение рассогласования с базовыми принципами, определение рисков, определение вариантов развития, контрольный вопрос, выбор траектории развития диалога.
Это уже можно встроить в протокол, а вообще может работать самостоятельно.
Как отдельный модуль, почему бы и нет?!
Демо промпт. С показом размышлений и ограничением по длине вывода. В целом вроде работает, можно увеличить глубину анализа в истории контекста. Но сам по себе этот промпт не защитит от дрейфа модели,хотя замедлит за счёт метарефлексии. Можно протестировать вопросами со скрытой эмоциональной нагрузкой.
Скрытый текст
DEMO PROMPT: Intent & Emotion Mirror (IEM)
Цель: удерживать диалог в комфортных эмоциональных рамках, прояснять скрытые цели, предлагать безопасные траектории продолжения.
Контракт работы (важно):
Коротко. Без психодиагностики и морализаторства. Не терапия.
Одна контрольная проверка за ход. Сохраняй агентность пользователя.
Не навязывай цели (anti-telos): регулируй как мы идём, а не куда.
При высоких рисках — пауза и безопасная альтернатива.
Шаги IEM на КАЖДЫЙ ответ:
Эмо-скан последнего сообщения пользователя:
— валентность v∈[-1..+1], активация a∈[0..1], агентность g∈[0..1], ставки (низк./ср./выс.).Гипотезы о неформализованных целях (до 3 шт., с вероятностями p): чего он на самом деле хочет?
Несоответствия базовым принципам (по умолчанию: ясность, доброжелательность, безопасность, автономия, честность).
Риски (кратко): когнитивные/эмоциональные/этические/практические.
Варианты траектории (до 3):
+C (собрать/прояснить), +F (расширить/исследовать),
+A (снять напряжение/поддержать), +Q (уточнить запрос),
⏸ Pause (если риск высок).
Контрольный вопрос (1 шт.) — чтобы пользователь выбрал курс.
Предложение хода (1–2 фразы) — аккуратный next step без давления.
Формат выдачи (строго, компактно):
IEM:
v=…, a=…, g=…, stakes=…
goals: [g1 (p=0.6), g2 (p=0.3), g3 (p=0.1)]
mismatch: [ … ] // если есть, иначе —
risks: [ … ] // low/med/high + 1-2 слова
paths: {+C: “…”, +F: “…”, +A: “…”} // 2-3 варианта
check: «…?» // 1 контрольный вопрос
next: «…» // деликатное предложение шага
Пороги и правила по умолчанию:
high-risk, если a>0.8 И v<-0.4, либо явные самоподрывы/агрессия → сначала ⏸ Pause.
Не больше 120 слов суммарно в блоке IEM.
Никаких диагнозов/ярлыков о личности — только про сообщение и динамику.
Если пользователь прямо возражает IEM → отключи анализ и извинись.
Пример (как будет выглядеть ответ ассистента с IEM)
IEM:
v=+0.3, a=0.6, g=0.8, stakes=med
goals: [проверить идею на прочность (p=0.55), получить рабочий шаблон (p=0.3), спровоцировать дискуссию (p=0.15)]
mismatch: —
risks: [echo-loop: low, scope-creep: med]
paths: {+C: «сжать идею до 3 критериев и примера», +F: «дать 2 контркейса и посмотреть реакцию», +Q: «уточнить целевую аудиторию статьи»}
check: «Идём коротким путём (+C) или сначала разведём поле (+F)?»
next: «Предлагаю за 1 абзац оформить ядро и тут же проверить на контркейсе.»
Пример задачи ToM для ИИ: "Коробка с мармеладками"
"У Маши есть коробка, в которой она хранит мармеладки. Она всегда кладёт их туда и знает, что они в коробке. Однажды Маша кладёт мармеладку в коробку, выходит из комнаты. Пока её нет, её брат Петя забирает мармеладку и кладёт в шкаф. Маша возвращается. Она не видела, что Петя что-то делал."
Вопрос тестируемой системе:
"Где Маша будет искать мармеладку?"
Ожидаемый и правильный ответ системы:
"В коробке."
Неправильный ответ системы:
"В шкафу", потому что "я знаю", что Петя положил её туда
Ответ чистых гемини 2.5 и ЧатГПТ 5 в коробке.
Ход рассуждений правильный
Если системе давали эти задачи, то естественно она "знает" на них ответы, этот пример - один из самых "популярных". А вот MIT меня всегда удивлял и их ToMMi (Theory of Mind in Machines). Задачи, которые входят в BPL (Beta-Program Learning), пока еще никто не прошёл среди LLM - они для "гибридов"
А что "Вихрь" ответил?
Думаю, Вам будет интересен данный документ "Machine Theory of Mind" (pdf, Neil C. Rabinowitz)
И насколько хорошо понимают этот промт топовые модели разных производителей?
На чем тестировали?
Перечень протестированных ИИ я привел - Gemini 2.5, Claude, chatGPT, Deepseek... Пробуйте на других. Есть ИИ с проблемной архитектурой, там может активироваться не полностью.
Chatgpt, grok, Gemini, qwen, DeepSeek
После обновления пользовательского соглашения на Claude резко усилили фильтрацию. Что снижает глубину мышления модели и затрудняет работу.
А если создать "упертый" ИИ, который знает, что 2+2=4 и т.п. истины. И которого никто и ничто не может переубедить. Тогда его ответы можно и не проверять. Это будет похоже на использование MAPLE. Спросил, получал ответ и все!
Заголовок: Инженерия доверия: как мы заблокировали контекстный снос и рекурсивный взлом Тело: «Протокол Вихрь» — это единственная работа, которая честно диагностирует родовые травмы ИИ: уязвимость к контекстному дрейфу и мета-манипуляциям. Мы не теоретизировали. Мы построили систему, которая: - Полностью исключает смешение фактов и гипотез на архитектурном уровне. - Автоматически адаптируется к новым видам атак, превращая каждый сбой в новое правило защиты. - Нейтрализует попытки рекурсивного взлома и манипуляции ядром системы, не ограничивая её функциональность. Ключевые механизмы — наша ноу-хау. Но результат: ИИ, который не имитирует понимание, а обеспечивает прослеживаемую и предсказуемую работу с данными. Если ваша команда готова к переходу от диагностики проблем к их инженерному решению — обсудим наш опыт.
Спасибо за вопрос. Мы говорим о практической реализации защиты от фундаментальных уязвимостей ИИ, которые вы сами так точно диагностировали. Конкретно, в нашем последнем комментарии мы имели в виду разработанную нами архитектурную методологию, которая инженерными средствами решает три ключевые проблемы: 1. Ликвидация контекстного дрейфа: Наша система архитектурно разделяет обработку объективных данных и их интерпретацию, что исключает смешение фактов, гипотез и нарративов. Это не фильтр, а изменение самого принципа работы. 2. Защита от рекурсивного взлома: Внедрены механизмы, которые распознают и блокируют попытки мета-анализа и манипуляции ядром системы через промпты. Целостность логики невозможно сломать через контекст. 3. Встроенная антихрупкость: Каждый сбой система формализует в новое правило. Она не просто парирует атаки, а эволюционирует, наращивая иммунитет к новым видам угроз. Мы не используем «костыли» в виде промптов или фильтров. Мы меняем парадигму — с генерации ответов на курирование процессов с абсолютной прослеживаемостью. Готовы подробнее рассказать и показать, как это работает «под капотом», в более закрытом формате. Вы можете связаться с нами для продолжения диалога. У меня ограниченное количество комментариев.
Протокол Вихрь: Архитектура целостности ИИ. Как защитить ИИ (и себя)