AI工具
发布文章-
发布了文章 2个月前
OmniSync – 人民大学联合快手、清华推出的通用对口型框架
OmniSync是中国人民大学、快手科技和清华大学联合推出的通用对口型框架,基于扩散变换器(Diffusion Transformers)实现视频中人物口型与语音的精准同步。OmniSync基于无掩码训练范式直接编辑视频帧,...
-
发布了文章 2个月前
OmniSearch – 阿里通义推出的多模态检索增强生成框架
OmniSearch是阿里巴巴通义实验室推出的多模态检索增强生成框架,具备自适应规划能力。OmniSearch能动态拆解复杂问题,根据检索结果和问题情境调整检索策略,模拟人类解决复杂问题的行为,提升检索效率和准确性。Omni...
-
发布了文章 2个月前
OmniSVG – 复旦大学联合 StepFun 推出端到端多模态矢量图形生成模型
OmniSVG 是复旦大学和 StepFun 联合开发的全球首个端到端多模态 SVG(可缩放矢量图形)生成模型。基于预训练视觉语言模型(VLM),通过创新的 SVG 标记化方法,将 SVG 命令和坐标参数化为离散令牌,实现了...
-
发布了文章 2个月前
OmniSQL – 开源文本到 SQL 模型,自然语言转换为 SQL 查询语句
OmniSQL 是开源的文本到 SQL 模型,将自然语言问题高效转换为 SQL 查询语句。通过创新的数据合成框架生成了首个百万量级的文本到 SQL 数据集 SynSQL-2.5M,包含 250 万条高质量样本,覆盖 16,0...
-
发布了文章 2个月前
OmniParser – 微软推出的屏幕解析工具,将UI截图转换为结构化数据
OmniParser是微软研究院推出的屏幕解析工具,将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型(如GPT-4V)的UI代理系统的性能,基于准确识别可交互图标和理解截图元素的语义,增强代理执行任...
-
发布了文章 2个月前
OmniParse – AI数据解析平台,提取和解析任何非结构化数据
OmniParse是数据解析平台,将非结构化数据转换为结构化、可操作的数据,优化适用于GenAI(大型语言模型)应用。OmniParse支持约20种文件类型,包括文档、表格、图像、视频、音频和网页,提供表格提取、图像字幕、音...
-
发布了文章 2个月前
OmniManip – 智元机器人联合北大推出的通用机器人操作框架
OmniManip 是北京大学与智元机器人联合实验室开发的通用机器人操作框架,通过结合视觉语言模型(VLM)的高层次推理能力和精确的三维操作能力,实现机器人在非结构化环境中的通用操作。...
-
发布了文章 2个月前
OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架
OmniHuman 是字节跳动推出的端到端多模态条件化人类视频生成框架,能基于单张人类图像和运动信号(如音频、视频或两者的组合)生成逼真的人类视频。OmniHuman基于多模态运动条件混合训练策略,克服以往方法因高质量数据稀...
-
发布了文章 2个月前
OmniGen2 – 智源研究院开源的多模态生成模型
OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像,支持指令引导的图像编辑,比如修改背景或人物特征等。OmniGen2 采用双组件架构,结合视觉语言模型(VLM)和扩散模型,实现...
-
发布了文章 2个月前
OmniGen – 统一图像生成的扩散模型,支持多模态输入
OmniGen是用于统一图像生成的新扩散模型,能在单一框架内处理多种图像生成任务,如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。OmniGen涉及传统计算机视觉任务,将任务转化为图像生成任务增强模型的复杂图像生...
-
发布了文章 2个月前
OmniFlow – 松下联合加州大学推出的多模态AI模型
OmniFlow是松下与加州大学洛杉矶分校(UCLA)合作推出的多模态AI模型。模型能实现文本、图像和音频之间的任意到任意(Any-to-Any)生成任务,例如将文本转换为图像或音频,或将音频转换为图像等。OmniFlow扩...
-
发布了文章 2个月前
OmniEdit – 滑铁卢大学等机构开源的通用图像编辑模型
OmniEdit是先进的图像编辑技术,通过结合多个专家模型的监督来训练一个通用模型,处理多种图像编辑任务。能处理不同纵横比的图像,七种不同的图像编辑任务,包括对象替换、移除、添加等,支持任意宽高比和分辨率。...
-
发布了文章 2个月前
OmniCorpus – 百亿级多模态数据集,支持中英双语
OmniCorpus是一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCorpus通过整合来自网站和视频平台的文本和视觉内容,提...
-
发布了文章 2个月前
OmniConsistency – 新加坡国立大学推出的图像风格迁移模型
OmniConsistency 是新加坡国立大学推出的图像风格迁移模型,能解决复杂场景下风格化图像的一致性问题。模型基于大规模配对的风格化数据进行训练,用两阶段训练策略,将风格学习与一致性学习解耦,在多种风格下保持图像的语义...
-
发布了文章 2个月前
OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架
OmniCam 是先进的多模态视频生成框架,通过摄像机控制实现高质量的视频生成。支持多种输入模态组合,用户可以提供文本描述、视频中的轨迹或图像作为参考,精确控制摄像机的运动轨迹。...






























