Комментарии 2
мне нравится, что статья помечена как "простой" и 7 минут :-)
Интересно, они сравнивают с ванильным GRPO, но на него уже понавешивали всяких улучшений. Например, в статье MiMo авторы используют несимметричный клиппинг, полностью выпиливают KL, и сверху ещё навешивают сложные методики семплирования и фильтрации, одна из которых это фильтрация слишком сложных и слишком простых задач.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
GSPO (Qwen RL Algorithm by Alibaba Cloud)