VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688个描述物理互动的字幕,用在从多种文本到视频模型中生成视频,进行人类及自动评估。研究发现,即使是最佳模型,也仅有39.6%的视频能同时遵循文本提示和物理法则。VideoPhy强调视频生成模型在模拟物理世界方面的局限性,推出自动评估工具VideoCon-Physics,支持未来模型的可靠评估。

VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试  第1张
(图片来源网络,侵删)
VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试  第2张
(图片来源网络,侵删)