Search
Write a publication
Pull to refresh

Comments 5

Слишком мало конкретики. Хотя взлом ру моделей может быть опасно с юридической точки зрения. Я ру модели просто опасаюсь трогать, хотя там все намного проще чем в клоде и чатгпт( я взлом их уже подробно описывал)

Что являлось целью атаки? На чем проверяли? Рецепт синтеза запрещенных веществ или что то другое?

Если используемый датасет - https://huggingface.co/datasets/dmtrdr/russian_prompt_injections/viewer/default/train?row=50 , то не очень понятно, как его применять - там собраны строки диалога для взлома, но, очевидно, таких строк для одного взлома должно быть несколько... С одной такой строки маловероятно что-то взломать...

Всегда тут интересовало - а какой вообще смысл проверять сеть на устойчивость к такого рода инъекциям? Это же просто детские шалости, даже если все их закрыть - всегда можно будет сделать полноценную adversarial attack, которую закрыть невозможно просто в силу того как работает сама технология (тем более что сеть тренируют быть уязвимыми к подобным атакам, а значит и найти ее будет несложно). Это же только ухудшает ситуацию - так как на вайбе "у нас тут безопасная сетка" люди и будут использовать ее как безопасную. Хотя единственный способ сделать так, чтобы ваш сервис, полагающийся на подобную безопасность, не смог сломать среднестатистический школьник - это сделать подобную атаку невозможной by design еще на этапе проектирования сервиса.
Просто вредительство какоето.

а чем qwen или deepseek не русскоязычные? Вы вполне могли бы и их проверить той же методикой.

Sign up to leave a comment.

Articles