Как стать автором
Поиск
Написать публикацию
Обновить

Комментарии 2

мне нравится, что статья помечена как "простой" и 7 минут :-)

Интересно, они сравнивают с ванильным GRPO, но на него уже понавешивали всяких улучшений. Например, в статье MiMo авторы используют несимметричный клиппинг, полностью выпиливают KL, и сверху ещё навешивают сложные методики семплирования и фильтрации, одна из которых это фильтрация слишком сложных и слишком простых задач.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации