AI工具
发布文章-
发布了文章 2个月前
MIMO – 阿里智能研究院推出的可控角色AI视频合成框架
MIMO是阿里巴巴集团智能计算研究所推出的可控角色视频合成的新型AI框架,基于空间分解建模技术,将2D视频转换为3D空间代码,实现对角色、动作和场景的精确控制。MIMO能处理任意角色的合成,适应新颖的3D动作,并与真实世界场...
-
发布了文章 2个月前
MILS – Meta AI 推出的零样本生成高质量多模态描述方法
MILS(Multimodal Iterative LLM Solver)是Meta AI提出的无需训练即可赋予大型语言模型(LLM)多模态能力的方法。通过多步推理,提示LLM生成候选输出,对每个输出进行评分和迭代反馈,最终...
-
发布了文章 2个月前
MIDI – AI 3D场景生成技术,能将单张图像转化为360度3D场景
MIDI(Multi-Instance Diffusion for Single Image to 3D Scene Generation)是先进的3D场景生成技术,能在短时间内将单张图像转化为高保真度的3D场景。通过智能分...
-
发布了文章 2个月前
MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法
MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法,基于引入DeepSeek的多头潜在注意力机制(MLA),优化任何基于Transformer的LLM的推理效率,降低推理成本。...
-
发布了文章 2个月前
MEXMA – Meta推出的预训练跨语言句子编码器
MEXMA是由Meta AI推出的一种新型的预训练跨语言句子编码器。基于结合句子级和词语级的目标提升句子表示的质量。在训练过程中,MEXMA用一种语言的句子表示预测另一种语言中被遮蔽的词语,支持直接更新编码器中的句子表示和所...
-
发布了文章 2个月前
MEMO – 音频驱动的生成肖像说话视频框架,保持身份一致性和表现力
MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架,用在生成具有身份一致性和表现力的说话视频。MEMO围绕两个核...
-
发布了文章 2个月前
MDT-baidu09A2G – 复旦&腾讯优图推出的AI模型,可根据语音同步生成手势
...
-
发布了文章 2个月前
MDM – 苹果推出开源的新型扩散模型框架
Matryoshka Diffusion Models(MDM)是由苹果公司研究人员推出的一种新型扩散模型框架,旨在解决生成高分辨率图像和视频时面临的计算和优化挑战。MDM基于在多个分辨率上联合去噪的扩散过程,采用嵌套UNe...
-
发布了文章 2个月前
MCPHub – 一站式MCP服务器聚合平台
MCPHub是一站式MCP(模型上下文协议)服务器聚合平台。支持将多个MCP服务器整合到不同的流式HTTP(SSE)端点,基于直观的Web界面和强大的协议处理能力,简化AI工具的集成流程。...
-
发布了文章 2个月前
MCP – Anthropic 开源的模型上下文协议
MCP(Model Context Protocol,模型上下文协议)是一个开放协议,是Anthropic开源的,能实现大型语言模型(LLM)应用与外部数据源和工具之间的无缝集成。基于客户端-服务器架构,支持多个服务连接到任...
-
发布了文章 2个月前
MCP Server Chart – 蚂蚁AntV开源的可视化图表MCP
MCP Server Chart 是蚂蚁AntV团队推出的可视化图表生成工具。工具基于Model Context Protocol(MCP)协议,支持超过25种可视化图表,包括常见的统计图表(如折线图、柱状图、饼图)和关系类...
-
发布了文章 2个月前
MCA-baidu09Ctrl – 中科院和中科大推出的图像定制生成框架
MCA-Ctrl(Multi-party Collaborative Attention Control)是中科院计算所和中国科学院大学的推出的图像定制生成框架,基于文本和复杂视觉条件实现高质量的图像生成。...
-
发布了文章 2个月前
MATRIX-baidu09Gen – 上海交大联合牛津大学推出的多智能体模拟系统
MATRIX-Gen是上海交通大学和牛津大学研究团队推出的多智能体模拟系统,基于模拟1000多个具有独立身份和人格的AI智能体组成的社会,生成多样化且高质量的训练指令数据。训练指令数据用在大型语言模型(LLMs)的后训练,提...
-
发布了文章 2个月前
MAS-baidu09Zero – Salesforce推出的多智能体系统设计框架
MAS-Zero是 Salesforce 推出的多智能体系统(MAS)设计框架,能在无需人类监督的情况下自动设计和优化MAS。框架基于元级设计,在推理时动态地对每个问题实例生成、评估和改进MAS配置。...
-
发布了文章 2个月前
MARS5-baidu09TTS – 开源的AI声音克隆工具,支持140+语言
MARS5-TTS是CAMB.AI推出开源的AI声音克隆工具,有突破性逼真的韵律,支持140多种语言支持。还能处理复杂韵律场景,如体育解说和动漫AI配音等。MARS5-TTS具有12亿参数,训练数据超过15万小时。通过简单的...






























