MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉-动作自回归Transformer架构,将游戏场景和动作转化为离散的token ID,通过下一个token预测进行训练。模型开发了并行解码算法,可实现每秒4至7帧的生成速度,支持实时互动。MineWorld在视频质量、可控性和推理速度上均优于现有模型,如Oasis。

(图片来源网络,侵删)

(图片来源网络,侵删)
MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉-动作自回归Transformer架构,将游戏场景和动作转化为离散的token ID,通过下一个token预测进行训练。模型开发了并行解码算法,可实现每秒4至7帧的生成速度,支持实时互动。MineWorld在视频质量、可控性和推理速度上均优于现有模型,如Oasis。
全部评论
留言在赶来的路上...
发表评论