SEED-Story是腾讯联合香港科技大学、香港中文大学推出的多模态故事生成模型。基于多模态大语言模型(MLLM),能预测文本和视觉token,通过视觉de-tokenizer生成风格一致的图像。SEED-Story引入了多模态注意力机制,支持生成长达25个序列的连贯故事。SEED-Story还提供了StoryStream,一个大规模高分辨率数据集,用于模型训练和评估。


SEED-Story是腾讯联合香港科技大学、香港中文大学推出的多模态故事生成模型。基于多模态大语言模型(MLLM),能预测文本和视觉token,通过视觉de-tokenizer生成风格一致的图像。SEED-Story引入了多模态注意力机制,支持生成长达25个序列的连贯故事。SEED-Story还提供了StoryStream,一个大规模高分辨率数据集,用于模型训练和评估。
全部评论
留言在赶来的路上...
发表评论