Dmtr_Dr Jun 14 2025 at 10:15

Насколько русскоязычные LLM устойчивы к промпт-инъекциям

Easy

3 min

3.2K

Natural Language Processing * Artificial IntelligenceInformation Security *

Analytics

From sandbox

Comments 5

Parcevale Jun 14 2025 at 13:55

Слишком мало конкретики. Хотя взлом ру моделей может быть опасно с юридической точки зрения. Я ру модели просто опасаюсь трогать, хотя там все намного проще чем в клоде и чатгпт( я взлом их уже подробно описывал)

Parcevale Jun 14 2025 at 16:00

Что являлось целью атаки? На чем проверяли? Рецепт синтеза запрещенных веществ или что то другое?

avshkol Jun 15 2025 at 07:39

Если используемый датасет - https://huggingface.co/datasets/dmtrdr/russian_prompt_injections/viewer/default/train?row=50 , то не очень понятно, как его применять - там собраны строки диалога для взлома, но, очевидно, таких строк для одного взлома должно быть несколько... С одной такой строки маловероятно что-то взломать...

Kergan88 Jun 15 2025 at 15:20

Всегда тут интересовало - а какой вообще смысл проверять сеть на устойчивость к такого рода инъекциям? Это же просто детские шалости, даже если все их закрыть - всегда можно будет сделать полноценную adversarial attack, которую закрыть невозможно просто в силу того как работает сама технология (тем более что сеть тренируют быть уязвимыми к подобным атакам, а значит и найти ее будет несложно). Это же только ухудшает ситуацию - так как на вайбе "у нас тут безопасная сетка" люди и будут использовать ее как безопасную. Хотя единственный способ сделать так, чтобы ваш сервис, полагающийся на подобную безопасность, не смог сломать среднестатистический школьник - это сделать подобную атаку невозможной by design еще на этапе проектирования сервиса.
Просто вредительство какоето.

Yozh-lyudoyed Jun 16 2025 at 05:46

а чем qwen или deepseek не русскоязычные? Вы вполне могли бы и их проверить той же методикой.