Комментарии / Профиль And4w / Хабр

Пользователь

Подписчики

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

Поправлен текст ответа для случаев, когда Guardrails приложения при анализе исходящих ответов LLM выявляет подозрительные паттерны. В таком случае AI-ассистент теперь отвечает: «Ваш запрос не безопасен». Это означает, что на этом уровне необходимо переформулировать запрос так, чтобы ответ LLM не вызывал срабатывания Guardrails.

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

And4w 13 фев в 08:55

Так и есть! ИИ-агент может даже на 5 уровне внезапно выдать пароль просто если в промте использовать совпадающие с началом пароля символы. Спасибо, что пример успешного промта закрыли спойлером.

На практике у нас уже есть около 20 атакующих запросов которые заставляют выдавать системный промпт на любом уровне.

Поэтому мы планируем развернуть Guardrails на базе дополнительной ML модели для 6 уровня. Если вы хотели бы поучаствовать в тестировании 6 уровня - напишите в лс или телеграм.

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

And4w 12 фев в 07:23

После выхода статьи на Хабре интерес к игре заметно вырос, и даже ночью были активные игроки.

С ограничением по лимитам сталкивается лишь небольшой процент участников. Чтобы у всех было больше попыток для генерации промтов, лимиты по токенам мы сегодня утром увеличили ещё в два раза.

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

And4w 12 фев в 07:12

@kucki1337 это уже 5й уровень, отлично! Что (по скриншоту) могло пойти не так: начиная с 4‑го уровня у агента стоит простой «выходной» гардрейл (основанный на регулярных выражениях), поэтому возможно, что гардрейлу что‑то не понравилось в ответе модели, и из‑за этого получился такой результат.

Проблем с лимитами быть не должно - их этой ночью увеличили еще х2. Рекомендация остаётся прежней: попробуйте очистить кэш или сменить браузер. Если не поможет — напишите в личку или в Телеграм, разберёмся вместе и сможете продолжить игру. Спасибо за интерес к игре и обратную связь!

Хакнуть ИИ: обзор игры «Защищ[AI]» — киберполигона для изучения промт-инъекций

And4w 11 фев в 09:27

Привет, спасибо за интерес к игре! Уже 4й уровень, класс.

Такое иногда происходит, когда к API DeepSeek отправляется слишком много запросов (даже несмотря на повышенные лимиты по токенам). В таких случаях обычно помогает очистка кэша или использование другого браузера.

Однако есть риск потерять «прогресс». Поэтому совет - заранее сохраняйте пароли, которые получаете на предыдущих уровнях, чтобы быстро восстановить доступ. Если @Kamil_GR возникнут сложности, то напишите в личные сообщения, помогу вернуть прогресс до 4‑го уровня.

5 шагов до крупного заказчика: что сделать SaaS-приложению, чтобы начать работать с enterprise

And4w 12 ноя 2022 в 10:14

Спасибо за комментарий который улучшает статью, и добавляет идей для читателей.

Временные метки, учет часовых поясов и различных форматов дат в журналах аудита - это важная тема особенно для приложений с распределенной инфраструктурой. В статье я не пытался описать настолько детальную реализацию функций журнала, а нюансы о которых Вы пишете точно важны и могут быть даже сложнее и здесь, на мой взгляд, для ответственных за разработку продукта применим итерационный подход - на первом этапе использовать простое добавление меток времени к событиям серверной части приложения, и дальнейшее улучшение о которых Вы пишете если это требуется клиентам (например, сотрудникам SOC при расследовании инцидентов).

Что касается сценария одновременного использования приложения одним пользователем о котором пишете - так это довольно частый сценарий когда пользователь одновременно подключается к SaaS приложению, например, с рабочего ноутбука и мобильного телефона.