VideoWorld是北京交通大学、中国科学技术大学和字节跳动合作开展的一项研究项目,探索深度生成模型是否能仅通过未标注的视频数据学习复杂的知识,包括规则、推理和规划能力。该项目的核心是自回归模型,通过观察视频来获取知识,不依赖于传统的文本或标注数据。

VideoWorld – 字节联合交大等机构推出的自回归视频生成模型  第1张
(图片来源网络,侵删)
VideoWorld – 字节联合交大等机构推出的自回归视频生成模型  第2张
(图片来源网络,侵删)