VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试

baidu09_com 2025-08-31 36 0

VideoPhy是UCLA和谷歌研究研究院联合推出的，首个评估视频生成模型物理常识能力的基准测试，能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688个描述物理互动的字幕，用在从多种文本到视频模型中生成视频，进行人类及自动评估。研究发现，即使是最佳模型，也仅有39.6%的视频能同时遵循文本提示和物理法则。VideoPhy强调视频生成模型在模拟物理世界方面的局限性，推出自动评估工具VideoCon-Physics，支持未来模型的可靠评估。