Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!

Интересно, они сравнивают с ванильным GRPO, но на него уже понавешивали всяких улучшений. Например, в статье MiMo авторы используют несимметричный клиппинг, полностью выпиливают KL, и сверху ещё навешивают сложные методики семплирования и фильтрации, одна из которых это фильтрация слишком сложных и слишком простых задач.
GSPO (Qwen RL Algorithm by Alibaba Cloud)