Comments 9
избегать опоры на авторитеты, сфокусироваться на «поиск истины». Это отличается от архитектуры конкурентов вроде Claude от Anthropic, где приоритет отдан безопасности и фильтрации потенциально опасного контента.
какой ужас, нужно отменять эту модель, ишь чего удумали, истину искать
Ну да, действительно страшно — ИИ вдруг решит “искать истину”, а не просто повторять официальные пресс-релизы. Проблема не в самой идее, а в том, что без нормальных фильтров и архитектуры это превращается в цирк: то конспиролог, то MechaHitler.
без нормальных фильтров
Проблема в том, что "нормальность" тех или иных фильтров - это политический вопрос. Что для одних цирк - для других может быть табу или, наоборот, вполне допустимая идея.
Так что какие вводные LLM даём: включая или исключая наши с вами табу? Включаем - отсекаем возможные выводы потому, что не желаем их видеть. Выключаем - начинаем раздражаться, что система сделала табуированные выводы. И вне зависимости от нашего выбора эти выводы не перестанут существовать.
Поможет только по каждому отдельному из таких табуированных вопросов найти достаточно аргументов в пользу той или иной точки зрения.
Тут опять вопрос в том, что "найти достаточно аргументов в пользу той или иной точки зрения" это практически подогнать под точку зрения которая соответствует ценностям того, кто обучает.
Понятно, что вопрос безопасного ИИ очень непростой и поэтому, наверное, так много авторитетных специалистов в последнее время уделяют ему столько внимания.
Таки отравили ребенка твиттером. Вот, всегда говорил - не надо пускать неокрепший моск в Сеть - помойку. :)
Порой мне кажется что они этими своим системными промптами только место в контексте съедают. Интересно, что будет если вообще исключить все системные промпты и подавать в модель только пользовательские?
>ориентация на вовлечение без строгой модерации повышает уязвимость к манипуляциям и контекстному заражению
Но правильная демократическая цензура это конечно другое.
Grok AI: публикация системных промптов и провал в архитектуре безопасности