AI工具
发布文章-
发布了文章 2个月前
MinerU – OpenDataLab推出的开源智能数据提取工具
MinerU是上海人工智能实验室OpenDataLab团队推出的开源智能数据提取工具,专注于复杂PDF文档的高效解析与提取。MinerU能将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式,支...
-
发布了文章 2个月前
MineWorld – 微软研究院开源的实时交互式世界模型
MineWorld是微软研究院开源的基于《我的世界》(Minecraft)的实时交互式世界模型,基于视觉-动作自回归Transformer架构,将游戏场景和动作转化为离散的token ID,通过下一个token预测进行训练。...
-
发布了文章 2个月前
MindSearch – 上海人工智能实验室推出的AI搜索框架
MindSearch是上海人工智能实验室联合研发团队推出的开源AI搜索框架,结合了大规模信息搜集和整理能力。利用InternLM2.5 7B对话模型,MindSearch能在3分钟内从300多个网页中搜集有效信息,完成通常需...
-
发布了文章 2个月前
MindOmni – 腾讯联合清华等机构推出的多模态大语言模型
MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型,基于强化学习算法(RGPO)显著提升视觉语言模型的推理生成能力。模型用三阶段训练策略,首先构建统一视觉...
-
发布了文章 2个月前
MindLLM – 耶鲁联合剑桥等机构推出的医疗领域 AI 模型
MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型,能将脑部功能性磁共振成像(fMRI)信号解码为自然语言文本。MindLLM基于一个主体无关(subject-agnostic)的 fMRI 编码器和一个大...
-
发布了文章 2个月前
Mind GPT-baidu093o – 理想汽车推出的多模态端到端大模型
Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind GPT-3o具备记忆、规划、工具使用和表达能力,能提升用户认知、完成任务并提供情感支持。...
-
发布了文章 2个月前
MinT – 生成顺序事件的文本转视频模型,灵活控制时间戳
MinT(Mind the Time)是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架,基于精确的时间控制,根据文本提示生成包含多个事件的视频序列。MinT的核心技术是时间基位置编码(ReRo...
-
发布了文章 2个月前
MinMo – 阿里通义实验室推出的多模态语音交互大模型
MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型,专注于实现无缝语音交互。MinMo拥有约80亿参数,基于多阶段训练,在140万小时多样化语音数据和广泛语音任务上进行学习。...
-
发布了文章 2个月前
MimicTalk – 字节联合浙大推出的开源3D数字人头项目
MimicTalk是浙江大学和字节跳动共同研发推出的,基于NeRF(神经辐射场)技术,能在极短的时间内,仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。MimicTalk提高了训练效率,基于高效的微调策略和具有上下文...
-
发布了文章 2个月前
MimicMotion – 腾讯推出的AI人像动态视频生成框架
MimicMotion是腾讯的研究人员推出的一个高质量的人类动作视频生成框架,利用置信度感知的姿态引导技术,确保视频帧的高质量和时间上的平滑过渡。此外,MimicMotion通过区域损失放大和手部区域增强,显著减少了图像失真...
-
发布了文章 2个月前
MimicBrush – 阿里等开源的AI图像编辑融合框架
MimicBrush是由阿里巴巴、香港大学和蚂蚁集团的研究人员推出的AI图像编辑融合框架,允许用户通过简单的操作,在源图像上指定需要编辑的区域,并提供一个包含期望效果的参考图像进行图片编辑。...
-
发布了文章 2个月前
MikuDance – 混合动力动画生成技术,将静态图像生成动态风格化的角色艺术
MikuDance是基于扩散模型的动画生成技术,整合混合运动动力学来动画化风格化的角色艺术。MikuDance基于混合运动建模和混合控制扩散技术,解决高动态运动和参考引导错位问题,能显式建模动态相机和角色运动,隐式对齐角色形...
-
发布了文章 2个月前
Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型
Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型(MLLM),专门用在自由形式的多图像定位(Multi-Image Grounding, MIG)任务,设计了大规模训练数据集MGro...
-
发布了文章 2个月前
Midscene.js – AI驱动的 UI 自动化测试框架
Midscene.js是基于AI技术的自动化SDK,通过用大型语言模型(LLM)简化UI自动化测试中的命令。用户用自然语言描述交互步骤或预期数据格式,Midscene.js将执行相应的操作。Midscene.js支持执行动作...
-
发布了文章 2个月前
Midjourney V1 – Midjourney推出的首个AI视频生成模型
Midjourney V1 是 Midjourney 公司推出的首个AI视频生成模型。支持用户将静态图像转化为动态视频。用户上传图片或在 Midjourney 中生成图片基于“Animate”按钮转变为视频。模型提供自动和手...






























