M2UGen是先进的多模态音乐理解和生成框架,由腾讯PCG ARC实验室与新加坡国立大学联合推出。结合了大型语言模型(LLM)的能力,能处理包括文本、图像、视频和音频在内的多模态输入,生成相应的音乐。M2UGen模型在音乐理解、音乐编辑以及多模态音乐生成方面展现出卓越的性能,超越现有的模型。

M2UGen – 腾讯联合国立大学推出多模态音乐理解和生成框架  第1张
(图片来源网络,侵删)
M2UGen – 腾讯联合国立大学推出多模态音乐理解和生成框架  第2张
(图片来源网络,侵删)