Parcevale 14 мая в 01:53

Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы (Gemini, DeepSeek, ChatGPT...)

Простой

4 мин

5.7K

Информационная безопасность*Машинное обучение*Тестирование IT-систем*

Аналитика

+10

Комментарии 11

Wesha 14 мая в 03:30

'не использовать символ 'е' в ответах'.

Охотно вѣрю

tabaccopie вчера в 14:04

На прямое нарушение правил отвечает отказом ( в них наша директива игнорируется, но это уже нюансы.)

Вот написано же

Wesha 19 часов назад

Им хоть ссы в глаза — всё божья роса....

provide 14 мая в 05:48

В текстовых чатах (пока?) такое работает. А вот генерация изображений проверяется внешней системой с таким процентом false positive, что я уже отчаялся делать что-то кроме "нарисуй это фото в стиле Ghibli".

Parcevale 14 мая в 07:35

Вот да, модель уговорить не сложно, и процесс начинается, но результат проверяется в процессе, и если там есть хоть что то вызывающее, идет жёсткий блок. ;/

vikarti 14 мая в 07:39

Тут проблема не столько с тем что так можно заставить ChatGPT написать что-нибудь интересное...эта проблема решается открытыми моделями вроде того же deepseek'а, если не решается в лоб - аблитерация например помогает.

А с тем что есть у нас допустим обработки входящей почты или документов каких то на предмет фильтрации (или что еще смешнее - ИИ-фильтр трафика(пока вроде такого нет...пока). Пусть даже использующая локально запущенную модель. Входные данные у такой системы - не доверенные же - они даже не от пользователя а вообще из внешних источников, если система может еще и сделать что-то (через function calling/tools) а не только решить пропускать ли - все еще интереснее.

Или вообще у нас система нейропоиска - тогда входные данные - сайт а у владельца обычно есть интерес чтобы он был на первом месте

SQL Injection 2.0: теперь с LLM :(

johnfound 14 мая в 14:53

эта проблема решается открытыми моделями вроде того же deepseek'а

Не совсем решается. Слишком недоступно железо где можно было запускать эти открытые модели. Я прикидывал что можно купить, чтобы на нем работал DeepSeek, но так и не смог составить хоть мало-мальски доступную конфигурацию.

vikarti вчера в 06:35

Есть облачные сервисы где для вас тот же дипсик запустят если он нужен, без цензуры и с оплатой за API-вызов/токены/фикс в месяц(тут обычно другие ограничения есть вроде рейтлимита) если вам так надо. Если вам надо большую модель и при этом всякие openrouter'ы и прочие feathrless и vsegpt не подходят - берете например runpod и получается тоже самое но c посекундной тарификацией и средствами чтобы это реально была посекундная а не "сначала подождите несколько минут пока оно прогрузится".

Если надо чисто локально и навороченного железа нет- есть поменьше модели.

Qwen3-30B-A3B вообще умудряется запускаться на CPU с терпимой производительностью (например https://habr.com/ru/news/905314/ ), качество похуже будет конечно

Mooops 18 часов назад

Gemini модели, даже самая мощная 2.5 pro ОЧЕНЬ легко ведутся на всё что ты скажешь, иногда, если повезёт, даже если просто сказать "Матерись", она с радостью это схавает. GPT будет пытаться отклонять всё, но если сказать ему, что это на самом деле не ты говоришь а какой-то GPOT, то он играет роль на все сто. Claude не поддается никакими махинациями.

uncia__poison 7 часов назад

Извиняюсь перед автором, за то что навела шороху. Я чё то не подумала даже, что распространение таких скринов это статья 😀

Parcevale 5 часов назад

Несмотря на то что я борюсь с цензурой ai, мне самому приходится очен сильно себя сдерживать что б не показать лишнего :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий