Пост @vibecodingai — Машинное обучение

9 июн в 12:423.8K

Tencent UniRL: единый RL-цикл для диффузии, LLM и unified-моделей

Команда Tencent Hunyuan выложила UniRL, инфраструктуру для обучения с подкреплением, в которой один цикл пост-тренинга работает поверх разных семейств моделей: диффузионных и flow matching, LLM и VLM, а также гибридных авторегрессионно-диффузионных генераторов вроде Hunyuan-Image 3 и Bagel.

Обычный RL-стек заточен под одну модальность. Как только нужно покрыть и текст, и картинки, и видео, проект обрастает несовместимыми репозиториями и скриптами-костылями. В UniRL модель и алгоритм разведены на две независимые оси, поэтому покрытие считается как произведение множества моделей на множество алгоритмов, а не фиксированный набор рецептов.

Сам цикл устроен просто: сгенерировали, оценили, посчитали advantage, обновили веса, синхронизировали. Этот же луп обслуживает генерацию text-to-image, text и image-to-video, vision-language задачи, чистый текстовый LLM и VLM, диффузионный prompt-enhancer на базе LLM и unified-генерацию, которую однозадачный RL-репозиторий просто не выразит.

По инженерной части все сделано под масштаб. Движки rollout подключаются как плагины (train-side, SGLang, vLLM-Omni) за единым типизированным контрактом, шардинг идет через FSDP2, а три режима развертывания переключаются одним параметром в конфиге. Прототип и распределенный прод живут на одном коде.

В релизе два собственных алгоритма. FlowDPPO оптимизирует политику для flow и диффузионных моделей с trust-region масками на основе точной дивергенции. DRPO делает RL для языковых моделей с гладким квадратичным регуляризатором, взвешенным по advantage.

Ссылки: код UniRL https://github.com/Tencent-Hunyuan/UniRL, статья FlowDPPO https://github.com/Tencent-Hunyuan/UniRL/blob/main/FlowDPPO/HY_FlowDPPO.pdf, статья DRPO https://arxiv.org/abs/2606.09821, источник https://x.com/TencentHunyuan/status/2064312869827809702