AI工具
发布文章-
发布了文章 2个月前
Muse – 微软研究院推出的生成式AI模型
Muse是微软推出的首个用在游戏创意生成的生成式AI模型,基于“World and Human Action Model”(WHAM)。Muse能生成游戏视觉效果和控制器操作,基于学习人类玩家的游戏数据(如图像和操作指令)模...
-
发布了文章 2个月前
Mureka V7.5 – 昆仑万维推出的AI音乐生成模型
Mureka V7.5是昆仑万维集团推出的先进AI音乐创作模型。模型在中文歌曲创作上表现卓越,能精准还原音色、演奏技法,提升咬字与情感表现。...
-
发布了文章 2个月前
Mureka V7 – 昆仑万维推出的最新AI音乐生成模型
Mureka V7是昆仑万维推出的先进的AI音乐模型,具备强大的音乐创作能力。模型基于MusiCoT(音乐思维链)技术,先规划整体音乐结构再填充细节,生成的音乐更具连贯性和艺术性。...
-
发布了文章 2个月前
Mureka V6 – 昆仑万维推出的AI音乐创作基座模型
Mureka V6是昆仑万维推出的AI音乐创作平台的基座模型,支持纯音乐生成以及10种语言的AI音乐创作。引入自研的ICL(in-context learning)技术,使声场更加开阔,人声质感和混音设计进一步强化。...
-
发布了文章 2个月前
Mureka O1 – 昆仑万维推出的音乐推理大模型
Mureka O1是昆仑万维发布的全球首款音乐推理大模型,全球首个引入“思维链”(Chain of Thought,CoT)技术的音乐模型,Mureka O1在推理过程中加入思考与自我批判机制,大幅提升了音乐品质、创作效率和...
-
发布了文章 2个月前
Multiverse – Enigma Labs推出的全球首款AI生成多人游戏模型
Multiverse是以色列团队Enigma Labs推出的全球首个AI生成多人游戏模型。是多人赛车游戏,玩家可以超车、漂移、加速,每一次行动会实时影响并重塑游戏世界。模型通过AI技术实时生成游戏画面,确保两名玩家看到的是同...
-
发布了文章 2个月前
Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口
Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal Live API让与A...
-
发布了文章 2个月前
MultiTalk – 音频驱动的多人对话视频生成框架
MultiTalk 是中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。框架根据多声道音频输入、参考图像和文本提示,生成包含人物互动且口型与音频一致的视频。...
-
发布了文章 2个月前
MultiFoley – Adobe 联合密歇根大学推出的音效生成系统
MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音频或部分视频来定制和生成与视频同步的声音,从而增...
-
发布了文章 2个月前
MultiBooth – 清华联合 Meta 等机构推出的多概念图像生成方法
MultiBooth是清华大学深圳国际研究生院、 Meta、香港科技大学等机构推出的多概念图像生成方法,能从文本中生成包含多个用户指定概念的图像。MultiBooth将生成过程分为两个阶段:单概念学习和多概念整合。在单概念学...
-
发布了文章 2个月前
MultiAgentPPT – 开源多智能体AI演示文稿生成系统
MultiAgentPPT 是多智能体演示文稿生成系统,基于 A2A(Ask-to-Answer)、MCP(Multi-agent Control Protocol)和 ADK(Agent Development Kit)架...
-
发布了文章 2个月前
Multi-baidu09Speaker – AudioShake 推出的多说话人声分离模型
Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道,解决传统音频工具在处理重叠语音时的难题。Multi-Speaker适用于多种场景,先进神经架...
-
发布了文章 2个月前
Multi-baidu09SWE-baidu09bench – 字节豆包开源的多语言代码修复基准
Multi-SWE-bench 是字节跳动豆包大模型团队开源的首个多语言代码修复基准。在SWE-bench基础上,首次覆盖Python之外的7种主流编程语言,包括Java、TypeScript、JavaScript、Go、R...
-
发布了文章 2个月前
Multi-baidu09Agent Orchestrator – 亚马逊开源的多智能体框架
Multi-Agent Orchestrator 是用于管理和协调多个智能代理(Agent)的框架。通过分类器识别用户输入的意图,将请求分配给最适合的代理进行处理,通过对话存储保持上下文连贯性。支持多种类型的代理,如基于大语...
-
发布了文章 2个月前
MuCodec – 清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器
MuCodec是清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学的研究人员共同推出的超低比特率音乐编解码器,能实现音乐的高效压缩与高保真重建。MuCodec基于MuEncoder提取音乐的声学和语义特征,用RVQ技术进...




























