上海交大吧
-
发布了文章 2个月前
MT-baidu09Color – 上海交大联合哔哩哔哩推出的可控图像着色框架
MT-Color是上海交通大学联合哔哩哔哩推出的基于扩散模型的可控图像着色框架,基于用户提供的实例感知文本和掩码实现精确的实例级图像着色。框架基于像素级掩码注意力机制防止色彩溢出,用实例掩码和文本引导模块解决色彩绑定错误问题...
-
发布了文章 2个月前
MM-baidu09StoryAgent – 上海交大联合阿里开源的多智能体故事绘本视频生成框架
MM-StoryAgent 是上海交通大学X-LANCE实验室和阿里巴巴集团联合推出的开源、多模态、多智能体框架,用在生成沉浸式的有声故事绘本视频。基于结合大型语言模型(LLMs)和多种模态的生成工具(如文本、图像、音频),...
-
发布了文章 2个月前
F5-baidu09TTS – 上海交大推出开源的文本到语音(TTS)合成系统
F5-TTS是由上海交通大学开源的一款高性能文本到语音(TTS)系统,基于流匹配的非自回归生成方法,结合扩散变换器(DiT)技术。系统在没有额外监督的情况下,基于零样本学习快速生成自然、流畅且忠实于原文的语音。...
没有更多内容







