VideoAgent是一种自改进的视频生成系统,由斯坦福大学、滑铁卢大学、DeepMind等机构的研究人员共同推出。根据图像观察和语言指令生成视频计划,转换为机器人控制动作。VideoAgent基于自我条件一致性方法细化视频计划,用预训练的视觉-语言模型(VLM)反馈进行迭代优化。在执行过程中,VideoAgent收集环境数据进一步提升视频生成质量,有效减少视频中的幻觉内容,提高任务成功率。系统在模拟环境中表现优异,能改进真实机器人视频,将视频生成技术应用在现实世界提供新的可能性。

VideoAgent – 斯坦福联合多所研究机构推出自改进的视频生成系统  第1张
(图片来源网络,侵删)
VideoAgent – 斯坦福联合多所研究机构推出自改进的视频生成系统  第2张
(图片来源网络,侵删)