MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源多模态、多智能体框架,用在生成沉浸式的有声故事绘本视频。基于结合大型语言模型(LLMs)和多种模态的生成工具(如文本、图像、音频),用多阶段写作流程和模态特定的提示修订机制,提升故事的吸引力和沉浸感。框架支持灵活的模块化设计,能替换不同的生成模型和API。MM-StoryAgent 提高了故事质量,在图像、语音、音乐和音效之间实现更好的对齐效果,为儿童故事书的自动化创作提供了高效、灵活且富有表现力的解决方案。

MM-baidu09StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架  第1张
(图片来源网络,侵删)
MM-baidu09StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架  第2张
(图片来源网络,侵删)