Verbasik10 авг 2025 в 17:56

GSPO (Qwen RL Algorithm by Alibaba Cloud)

Простой

7 мин

9.2K

Машинное обучение *

Обзор

Комментарии 2

10011001010010010 10 авг 2025 в 18:23

мне нравится, что статья помечена как "простой" и 7 минут :-)

Theio 12 авг 2025 в 20:10

Интересно, они сравнивают с ванильным GRPO, но на него уже понавешивали всяких улучшений. Например, в статье MiMo авторы используют несимметричный клиппинг, полностью выпиливают KL, и сверху ещё навешивают сложные методики семплирования и фильтрации, одна из которых это фильтрация слишком сложных и слишком простых задач.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий