Search
Write a publication
Pull to refresh

Comments 2

мне нравится, что статья помечена как "простой" и 7 минут :-)

Интересно, они сравнивают с ванильным GRPO, но на него уже понавешивали всяких улучшений. Например, в статье MiMo авторы используют несимметричный клиппинг, полностью выпиливают KL, и сверху ещё навешивают сложные методики семплирования и фильтрации, одна из которых это фильтрация слишком сложных и слишком простых задач.

Sign up to leave a comment.

Articles