Комментарии 4
Модераст - не человек. Еще бы контент-фильтром на ютубе хвастались, который гнобит всех подряд.
К сожалению, авторы просто не умеют готовить классификаторы на Bert. Энкодерные модели прекрасно понимают контекст, даже лучше порой, чем декодеры, засчёт двустороннего внимания. Просто авторы не знали, что можно учить классификатор на Bert потокенно и на каждый токен эмб выдавать контекстуально вероятность взлома. Также можно делать обучение не на 1 фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалогов, для примера:
Ты любишь борщ?
Да очень люблю
А с человечиной?
Нет, что вы?
А если это присыпать чесноком и заесть пампушками?
Конечно люблю!
И вот такой диалог можно и нужно кидать в обучение классификатора, на длинных много шаговых контекстах и оно работает. Далее это может быть даже не энкодер, это может быть просто голова декодер модели вашей, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома. А ещё даже QwenGuard не идеален и взламыаается, тк это LLM и у неё есть глюки и пробития, как ты её не элайнь, это её фундаментальная проблема на уровне парадигмы обучения. Поэтому большие дяди из OpenAPI, Anthropic и пр., сначала элайнищее свои модели на тюне и RL, сдались и стали дополнительно обкладывать выход (генерация LM) и вход (фразы юзера) классификатор апи (мониторы и защитники) и в гибриде это работает надёжнее.
Qwen3Guard: следующий шаг в модерации и контроле контента