Kling-Foley 是 推出的多模态视频生音效模型。模型将视频和文本提示作为条件输入,能生成与视频内容语义相关、时间同步的高质量立体声音频,涵盖音效、背景音乐等多种类型声音内容,支持任意时长音频生成。模型基于多模态控制的流匹配架构,用多模态特征融合和特定模块处理,精准实现音视频对齐。模型背后依托大规模自建多模态数据集进行训练,展现出优异的音频生成效果,在音效生成领域处于业内领先水平,为视频内容创作带来更高效、优质的音频解决方案。


Kling-Foley 是 推出的多模态视频生音效模型。模型将视频和文本提示作为条件输入,能生成与视频内容语义相关、时间同步的高质量立体声音频,涵盖音效、背景音乐等多种类型声音内容,支持任意时长音频生成。模型基于多模态控制的流匹配架构,用多模态特征融合和特定模块处理,精准实现音视频对齐。模型背后依托大规模自建多模态数据集进行训练,展现出优异的音频生成效果,在音效生成领域处于业内领先水平,为视频内容创作带来更高效、优质的音频解决方案。
全部评论
留言在赶来的路上...
发表评论