DITTO-2 是 Adobe 和加州大学研究人员联合推出的新型模型,通过优化扩散模型的推理时间,实现快速且可控的音乐生成。模型基于扩散模型的推理时间优化(Inference-Time Optimization, ITO),通过模型蒸馏技术(如一致性模型 Consistency Model, CM 和一致性轨迹模型 Consistency Trajectory Model, CTM),将生成速度提升至比实时更快。DITTO-2 支持多种音乐生成任务,包括音乐修复、扩展、强度控制、旋律控制以及音乐结构控制。还能将无条件扩散模型转换为具有先进文本控制能力的模型,通过最大化 CLAP 分数实现高质量的文本到音乐生成。


全部评论
留言在赶来的路上...
发表评论