首页 > AI工具第74页

AI工具

发布文章

今日：0| 一周：0| 文章：2

新窗

baidu09_com

发布了文章 2个月前

MinerU – OpenDataLab推出的开源智能数据提取工具

MinerU是上海人工智能实验室OpenDataLab团队推出的开源智能数据提取工具，专注于复杂PDF文档的高效解析与提取。MinerU能将包含图片、公式、表格等元素的多模态PDF文档转化为易于分析的Markdown格式，支...
AI工具

0 34 0
baidu09_com

发布了文章 2个月前

MineWorld – 微软研究院开源的实时交互式世界模型

MineWorld是微软研究院开源的基于《我的世界》（Minecraft）的实时交互式世界模型，基于视觉-动作自回归Transformer架构，将游戏场景和动作转化为离散的token ID，通过下一个token预测进行训练。...
AI工具

0 45 0
baidu09_com

发布了文章 2个月前

MindSearch – 上海人工智能实验室推出的AI搜索框架

MindSearch是上海人工智能实验室联合研发团队推出的开源AI搜索框架，结合了大规模信息搜集和整理能力。利用InternLM2.5 7B对话模型，MindSearch能在3分钟内从300多个网页中搜集有效信息，完成通常需...
AI工具

0 40 0
baidu09_com

发布了文章 2个月前

MindOmni – 腾讯联合清华等机构推出的多模态大语言模型

MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型，基于强化学习算法（RGPO）显著提升视觉语言模型的推理生成能力。模型用三阶段训练策略，首先构建统一视觉...
AI工具

0 39 0
baidu09_com

发布了文章 2个月前

MindLLM – 耶鲁联合剑桥等机构推出的医疗领域 AI 模型

MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型，能将脑部功能性磁共振成像（fMRI）信号解码为自然语言文本。MindLLM基于一个主体无关（subject-agnostic）的 fMRI 编码器和一个大...
AI工具

0 36 0
baidu09_com

发布了文章 2个月前

Mind GPT-baidu093o – 理想汽车推出的多模态端到端大模型

Mind GPT-3o是理想汽车推出的多模态端到端大模型，融合语音、视觉和语言理解技术，实现高效实时交互。Mind GPT-3o具备记忆、规划、工具使用和表达能力，能提升用户认知、完成任务并提供情感支持。...

AI工具

0 64 0
baidu09_com

发布了文章 2个月前

MinT – 生成顺序事件的文本转视频模型，灵活控制时间戳

MinT（Mind the Time）是Snap Research、多伦多大学和向量研究所联合推出的多事件视频生成框架，基于精确的时间控制，根据文本提示生成包含多个事件的视频序列。MinT的核心技术是时间基位置编码（ReRo...
AI工具

0 31 0
baidu09_com

发布了文章 2个月前

MinMo – 阿里通义实验室推出的多模态语音交互大模型

MinMo是阿里巴巴通义实验室FunAudioLLM团队推出的多模态大模型，专注于实现无缝语音交互。MinMo拥有约80亿参数，基于多阶段训练，在140万小时多样化语音数据和广泛语音任务上进行学习。...
AI工具

0 37 0
baidu09_com

发布了文章 2个月前

MimicTalk – 字节联合浙大推出的开源3D数字人头项目

MimicTalk是浙江大学和字节跳动共同研发推出的，基于NeRF（神经辐射场）技术，能在极短的时间内，仅需15分钟训练出个性化和富有表现力的3D说话人脸模型。MimicTalk提高了训练效率，基于高效的微调策略和具有上下文...
AI工具

0 65 0
baidu09_com

发布了文章 2个月前

MimicMotion – 腾讯推出的AI人像动态视频生成框架

MimicMotion是腾讯的研究人员推出的一个高质量的人类动作视频生成框架，利用置信度感知的姿态引导技术，确保视频帧的高质量和时间上的平滑过渡。此外，MimicMotion通过区域损失放大和手部区域增强，显著减少了图像失真...
AI工具

0 35 0
baidu09_com

发布了文章 2个月前

MimicBrush – 阿里等开源的AI图像编辑融合框架

MimicBrush是由阿里巴巴、香港大学和蚂蚁集团的研究人员推出的AI图像编辑融合框架，允许用户通过简单的操作，在源图像上指定需要编辑的区域，并提供一个包含期望效果的参考图像进行图片编辑。...
AI工具

0 44 0
baidu09_com

发布了文章 2个月前

MikuDance – 混合动力动画生成技术，将静态图像生成动态风格化的角色艺术

MikuDance是基于扩散模型的动画生成技术，整合混合运动动力学来动画化风格化的角色艺术。MikuDance基于混合运动建模和混合控制扩散技术，解决高动态运动和参考引导错位问题，能显式建模动态相机和角色运动，隐式对齐角色形...
AI工具

0 36 0
baidu09_com

发布了文章 2个月前

Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

Migician是北京交通大学、华中科技大学和清华大学的研究团队联合推出的多模态大语言模型（MLLM），专门用在自由形式的多图像定位（Multi-Image Grounding, MIG）任务，设计了大规模训练数据集MGro...
AI工具

0 42 0
baidu09_com

发布了文章 2个月前

Midscene.js – AI驱动的 UI 自动化测试框架

Midscene.js是基于AI技术的自动化SDK，通过用大型语言模型（LLM）简化UI自动化测试中的命令。用户用自然语言描述交互步骤或预期数据格式，Midscene.js将执行相应的操作。Midscene.js支持执行动作...
AI工具

0 30 0
baidu09_com

发布了文章 2个月前

Midjourney V1 – Midjourney推出的首个AI视频生成模型

Midjourney V1 是 Midjourney 公司推出的首个AI视频生成模型。支持用户将静态图像转化为动态视频。用户上传图片或在 Midjourney 中生成图片基于“Animate”按钮转变为视频。模型提供自动和手...
AI工具

0 20 0

70 71 72 73 74 75 76 77 78 79

关灯返回顶部