DanceGRPO 是字节跳动 Seed 和香港大学联合推出的首个统一视觉生成强化学习框架。将强化学习应用在视觉生成领域,覆盖两大生成范式(diffusion 和 rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)及五类奖励模型(图像视频美学、图文对齐、视频动态质量、二元奖励)。DanceGRPO 解决现有视觉生成任务中 RLHF 方案的局限性,实现在多种生成范式、任务、基础模型和奖励模型之间的无缝适应,显著提升模型性能,降低显存压力,适应大型 prompt 数据集训练,能迁移到 rectified flow 和视频生成模型。

DanceGRPO – 字节Seed联合港大推出的统一视觉生成强化学习框架  第1张
(图片来源网络,侵删)
DanceGRPO – 字节Seed联合港大推出的统一视觉生成强化学习框架  第2张
(图片来源网络,侵删)