WorldVLA – 阿里达摩院联合浙大推出的自回归动作世界模型

baidu09_com 2025-08-31 36 0

WorldVLA是阿里巴巴达摩院和浙江大学联合推出的自回归动作世界模型，模型将视觉-语言-动作（VLA）模型与世界模型整合到一个单一框架中。模型基于动作和图像理解预测未来的图像，目的是学习环境的基本物理规律以改进动作生成。动作模型根据图像观察生成后续的动作，辅助视觉理解，并反过来帮助世界模型的视觉生成。WorldVLA在性能上优于独立的动作模型和世界模型，突显世界模型与动作模型之间的相互增强作用。为解决自回归方式生成一系列动作时性能下降的问题，提出一种注意力掩码策略，在生成当前动作时选择性地屏蔽先前的动作，在动作块生成任务中显著提高性能。