DRA-Ctrl(Dimension-Reduction Attack)是浙江大学联合蚂蚁集团等机构推出的创新跨模态图片编辑框架。框架借助视频生成模型的视觉、时间、空间和因果等多维度高维特征表示,实现对图片主体的状态预测与精准编辑。框架基于视频到图像的知识压缩和任务适应,用视频模型的长距离上下文建模和平坦全注意力等优势,解决连续视频帧与离散图像生成之间的差距问题。实验表明,DRA-Ctrl在多种图像生成任务上表现出色,优于直接在图像上训练的模型,为大规模视频生成器在更广泛的视觉应用中提供新的可能性。

DRA-baidu09Ctrl – 浙大联合蚂蚁等机构推出的跨模态图片编辑框架  第1张
(图片来源网络,侵删)
DRA-baidu09Ctrl – 浙大联合蚂蚁等机构推出的跨模态图片编辑框架  第2张
(图片来源网络,侵删)