AI工具
发布文章-
发布了文章 2个月前
OmniBooth – 华为诺亚方舟联合港科大推出的图像生成框架
OmniBooth是华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关联的文本或图像指导精确控制图像中对象的位置和属性,提升文本到图像合成...
-
发布了文章 2个月前
OmniAvatar – 浙大联合阿里推出的音频驱动全身视频生成模型
OmniAvatar是浙江大学和阿里巴巴集团共同推出的音频驱动全身视频生成模型。模型根据输入的音频和文本提示,生成自然、逼真的全身动画视频,人物动作与音频完美同步,表情丰富。...
-
发布了文章 2个月前
OmniAudio-baidu092.6B – Nexa AI推出的端侧多模态音频语言模型
OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多模态模型融合Gemma-2-2b、Whisper Turbo...
-
发布了文章 2个月前
OmniAudio – 阿里通义推出的空间音频生成模型
OmniAudio 是阿里巴巴通义实验室语音团队推出的从360°视频生成空间音频(FOA)的技术。为虚拟现实和沉浸式娱乐提供更真实的音频体验。通过构建大规模数据集Sphere360,包含超过10.3万个视频片段,涵盖288种...
-
发布了文章 2个月前
OmniAlign-baidu09V – 上海交大联合上海 AI Lab 等推出的高质量数据集
OmniAlign-V 是上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的专为提升多模态大语言模型(MLLMs)与人类偏好的对齐能力设计的高质量数据集。OmniAlign-V包含约20万个多模态训练样本...
-
发布了文章 2个月前
OmniAI – AI文档处理平台,支持多格式批量处理和信息提取
OmniAI是一个强大的AI文档处理平台,基于先进的OCR技术,支持对PDF、DOCX、图片等多种文件格式进行快速处理和数据提取。平台支持用户轻松创建文档处理管道,实现批量处理、信息提取和内容分类。OmniAI支持多种视觉模...
-
发布了文章 2个月前
Omni Reference – Midjourney V7推出的图像参考功能
Omni Reference 是 Midjourney 推出的全能参考功能,支持用户将特定的人物、物体或场景从参考图像中嵌入到生成的图像中。Omni Reference 适用于Midjourney V7 版本,支持个性化、风...
-
发布了文章 2个月前
OminiControl – AI图像生成框架,实现图像主题控制和空间精确控制
OminiControl是高度通用且参数高效的图像生成框架,为扩散变换器模型如FLUX.1设计,实现对图像生成过程的精细控制。OminiControl支持主题驱动控制和空间控制,例如边缘引导和绘画生成,仅需在基础模型中增加0...
-
发布了文章 2个月前
Omages – 开源的3D模型生成项目
Omages是一个开源的3D模型生成项目,基于图像扩散技术将3D形状的几何和纹理信息编码进64x64像素的2D图像中,从而简化3D建模流程。...
-
发布了文章 2个月前
OmAgent – Om AI联合浙大开源的多模态语言代理框架
OmAgent是Om AI和浙江大学滨江研究院联合开源的多模态语言代理框架,能简化设备端智能代理的开发。OmAgent支持可重用的代理组件,助力开发者构建复杂的多模态代理,处理文本、图像、视频和音频等多种输入形式。...
-
发布了文章 2个月前
OlympicArena – 上海交大联合 AI Lab 等推出的多学科认知推理基准测试框架
OlympicArena是上海交通大学、上海AI Lab、苏州大学和上海交通大学生成式人工智能实验室(GAIR Lab)联合推出的多学科认知推理基准测试框架。OlympicArena包含11,163道来自国际奥林匹克竞赛的双...
-
发布了文章 2个月前
Oliva – 开源语音RAG助手,实时语音搜索向量数据库
Oliva 是开源的语音RAG助手,结合 Langchain 和 Superlinked 技术,基于语音驱动的 RAG(检索增强生成)架构,帮助用户在 Qdrant 向量数据库中实时搜索信息。用户基于自然语音提问,Oliva...
-
发布了文章 2个月前
Ola – 清华联合腾讯等推出的全模态语言模型
Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略,逐步扩展语言模型支持的模态,从图像和文本开始,再引入语音和视频数据,实现对多种模态的理解。...
-
发布了文章 2个月前
Office-baidu09PowerPoint-baidu09MCP-baidu09Server – 基于MCP的开源PPT生成与编辑工具
Office-PowerPoint-MCP-Server 是基于 Model Context Protocol(MCP)的开源工具,专门用在演示文稿的自动化创建和编辑。工具基于 python-pptx 库实现对 PowerP...
-
发布了文章 2个月前
OctoTools – 斯坦福推出解决复杂推理任务的开源智能体框架
OctoTools 是斯坦福大学推出的开源智能体框架,基于可扩展的工具解决复杂的推理任务。OctoTools用标准化的工具卡片(tool cards)封装工具功能,无需额外训练即可集成新工具。框架包含规划器(planner)...































