edyatl Aug 18 at 19:28

Grok AI: публикация системных промптов и провал в архитектуре безопасности

3 min

3.3K

Artificial IntelligenceMachine learning * Information Security * IT systems testing * Product Management *

-3

Comments 9

Kelbon Aug 18 at 19:56

избегать опоры на авторитеты, сфокусироваться на «поиск истины». Это отличается от архитектуры конкурентов вроде Claude от Anthropic, где приоритет отдан безопасности и фильтрации потенциально опасного контента.

какой ужас, нужно отменять эту модель, ишь чего удумали, истину искать

edyatl Aug 18 at 20:05

Ну да, действительно страшно — ИИ вдруг решит “искать истину”, а не просто повторять официальные пресс-релизы. Проблема не в самой идее, а в том, что без нормальных фильтров и архитектуры это превращается в цирк: то конспиролог, то MechaHitler.

Dair_Targ Aug 18 at 20:45

без нормальных фильтров

Проблема в том, что "нормальность" тех или иных фильтров - это политический вопрос. Что для одних цирк - для других может быть табу или, наоборот, вполне допустимая идея.

Так что какие вводные LLM даём: включая или исключая наши с вами табу? Включаем - отсекаем возможные выводы потому, что не желаем их видеть. Выключаем - начинаем раздражаться, что система сделала табуированные выводы. И вне зависимости от нашего выбора эти выводы не перестанут существовать.

Поможет только по каждому отдельному из таких табуированных вопросов найти достаточно аргументов в пользу той или иной точки зрения.

edyatl Aug 18 at 20:58

Тут опять вопрос в том, что "найти достаточно аргументов в пользу той или иной точки зрения" это практически подогнать под точку зрения которая соответствует ценностям того, кто обучает.

Понятно, что вопрос безопасного ИИ очень непростой и поэтому, наверное, так много авторитетных специалистов в последнее время уделяют ему столько внимания.

VladimirFarshatov Aug 18 at 20:04

Таки отравили ребенка твиттером. Вот, всегда говорил - не надо пускать неокрепший моск в Сеть - помойку. :)

edyatl Aug 18 at 20:11

Да, twitter конечно та еще Сеть. Раньше это были новости в реальном времени, быстрее чем что либо, а потом превратилось в безумные сра4и и ненависть, особенно русскоязычная часть. Оправдываются все, что мол такой формат, такая культура...

NeoCode Aug 18 at 21:02

Порой мне кажется что они этими своим системными промптами только место в контексте съедают. Интересно, что будет если вообще исключить все системные промпты и подавать в модель только пользовательские?

edyatl Aug 18 at 21:15

Системные промпты задают стиль, ограничения и правила, которые помогают модели вести себя предсказуемо. Эксперимент можно провести локально с какой-нибудь небольшой моделью.

IvanovSV Aug 19 at 01:09

>ориентация на вовлечение без строгой модерации повышает уязвимость к манипуляциям и контекстному заражению
Но правильная демократическая цензура это конечно другое.