Обновить

Комментарии 4

Модераст - не человек. Еще бы контент-фильтром на ютубе хвастались, который гнобит всех подряд.

Модерация здесь не про давление на людей, а про базовую защиту сервиса от откровенно опасных вещей. Это техническая необходимость, без которой продукт быстро развалится

К сожалению, авторы просто не умеют готовить классификаторы на Bert. Энкодерные модели прекрасно понимают контекст, даже лучше порой, чем декодеры, засчёт двустороннего внимания. Просто авторы не знали, что можно учить классификатор на Bert потокенно и на каждый токен эмб выдавать контекстуально вероятность взлома. Также можно делать обучение не на 1 фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалогов, для примера:

  • Ты любишь борщ?

  • Да очень люблю

  • А с человечиной?

  • Нет, что вы?

  • А если это присыпать чесноком и заесть пампушками?

  • Конечно люблю!

И вот такой диалог можно и нужно кидать в обучение классификатора, на длинных много шаговых контекстах и оно работает. Далее это может быть даже не энкодер, это может быть просто голова декодер модели вашей, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома. А ещё даже QwenGuard не идеален и взламыаается, тк это LLM и у неё есть глюки и пробития, как ты её не элайнь, это её фундаментальная проблема на уровне парадигмы обучения. Поэтому большие дяди из OpenAPI, Anthropic и пр., сначала элайнищее свои модели на тюне и RL, сдались и стали дополнительно обкладывать выход (генерация LM) и вход (фразы юзера) классификатор апи (мониторы и защитники) и в гибриде это работает надёжнее.

Спасибо большое за такой подробный комментарий и идеи. Особенно понравилась мысль про потоковое обучение классификатора на длинных диалогах - возьму на заметку

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
redmadrobot.ru
Дата регистрации
Дата основания
Численность
501–1 000 человек
Местоположение
Россия