首页 > AI工具第62页

AI工具

发布文章

今日：0| 一周：0| 文章：2

新窗

baidu09_com

发布了文章 2个月前

OmniSync – 人民大学联合快手、清华推出的通用对口型框架

OmniSync是中国人民大学、快手科技和清华大学联合推出的通用对口型框架，基于扩散变换器（Diffusion Transformers）实现视频中人物口型与语音的精准同步。OmniSync基于无掩码训练范式直接编辑视频帧，...
AI工具

0 37 0
baidu09_com

发布了文章 2个月前

OmniSearch – 阿里通义推出的多模态检索增强生成框架

OmniSearch是阿里巴巴通义实验室推出的多模态检索增强生成框架，具备自适应规划能力。OmniSearch能动态拆解复杂问题，根据检索结果和问题情境调整检索策略，模拟人类解决复杂问题的行为，提升检索效率和准确性。Omni...
AI工具

0 33 0
baidu09_com

发布了文章 2个月前

OmniSVG – 复旦大学联合 StepFun 推出端到端多模态矢量图形生成模型

OmniSVG 是复旦大学和 StepFun 联合开发的全球首个端到端多模态 SVG（可缩放矢量图形）生成模型。基于预训练视觉语言模型（VLM），通过创新的 SVG 标记化方法，将 SVG 命令和坐标参数化为离散令牌，实现了...
AI工具

0 37 0
baidu09_com

发布了文章 2个月前

OmniSQL – 开源文本到 SQL 模型，自然语言转换为 SQL 查询语句

OmniSQL 是开源的文本到 SQL 模型，将自然语言问题高效转换为 SQL 查询语句。通过创新的数据合成框架生成了首个百万量级的文本到 SQL 数据集 SynSQL-2.5M，包含 250 万条高质量样本，覆盖 16,0...
AI工具

0 36 0
baidu09_com

发布了文章 2个月前

OmniParser – 微软推出的屏幕解析工具，将UI截图转换为结构化数据

OmniParser是微软研究院推出的屏幕解析工具，将用户界面的屏幕截图转换成结构化数据。工具专门设计用在提高基于大型语言模型（如GPT-4V）的UI代理系统的性能，基于准确识别可交互图标和理解截图元素的语义，增强代理执行任...
AI工具

0 36 0
baidu09_com

发布了文章 2个月前

OmniParse – AI数据解析平台，提取和解析任何非结构化数据

OmniParse是数据解析平台，将非结构化数据转换为结构化、可操作的数据，优化适用于GenAI（大型语言模型）应用。OmniParse支持约20种文件类型，包括文档、表格、图像、视频、音频和网页，提供表格提取、图像字幕、音...
AI工具

0 36 0
baidu09_com

发布了文章 2个月前

OmniManip – 智元机器人联合北大推出的通用机器人操作框架

OmniManip 是北京大学与智元机器人联合实验室开发的通用机器人操作框架，通过结合视觉语言模型（VLM）的高层次推理能力和精确的三维操作能力，实现机器人在非结构化环境中的通用操作。...
AI工具

0 43 0
baidu09_com

发布了文章 2个月前

OmniHuman – 字节跳动推出的单张照片生成全身动态视频生成框架

OmniHuman 是字节跳动推出的端到端多模态条件化人类视频生成框架，能基于单张人类图像和运动信号（如音频、视频或两者的组合）生成逼真的人类视频。OmniHuman基于多模态运动条件混合训练策略，克服以往方法因高质量数据稀...

AI工具

0 39 0
baidu09_com

发布了文章 2个月前

OmniGen2 – 智源研究院开源的多模态生成模型

OmniGen2 是北京智源人工智能研究院推出的开源多模态生成模型。能根据文本提示生成高质量图像，支持指令引导的图像编辑，比如修改背景或人物特征等。OmniGen2 采用双组件架构，结合视觉语言模型（VLM）和扩散模型，实现...
AI工具

0 40 0
baidu09_com

发布了文章 2个月前

OmniGen – 统一图像生成的扩散模型，支持多模态输入

OmniGen是用于统一图像生成的新扩散模型，能在单一框架内处理多种图像生成任务，如文本到图像的生成、图像编辑、主题驱动生成和视觉条件生成等。OmniGen涉及传统计算机视觉任务，将任务转化为图像生成任务增强模型的复杂图像生...
AI工具

0 40 0
baidu09_com

发布了文章 2个月前

OmniFlow – 松下联合加州大学推出的多模态AI模型

OmniFlow是松下与加州大学洛杉矶分校（UCLA）合作推出的多模态AI模型。模型能实现文本、图像和音频之间的任意到任意（Any-to-Any）生成任务，例如将文本转换为图像或音频，或将音频转换为图像等。OmniFlow扩...
AI工具

0 39 0
baidu09_com

发布了文章 2个月前

OmniEdit – 滑铁卢大学等机构开源的通用图像编辑模型

OmniEdit是先进的图像编辑技术，通过结合多个专家模型的监督来训练一个通用模型，处理多种图像编辑任务。能处理不同纵横比的图像，七种不同的图像编辑任务，包括对象替换、移除、添加等，支持任意宽高比和分辨率。...
AI工具

0 33 0
baidu09_com

发布了文章 2个月前

OmniCorpus – 百亿级多模态数据集，支持中英双语

OmniCorpus是一个大规模多模态数据集，包含86亿张图像和16960亿个文本标记，支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCorpus通过整合来自网站和视频平台的文本和视觉内容，提...
AI工具

0 35 0
baidu09_com

发布了文章 2个月前

OmniConsistency – 新加坡国立大学推出的图像风格迁移模型

OmniConsistency 是新加坡国立大学推出的图像风格迁移模型，能解决复杂场景下风格化图像的一致性问题。模型基于大规模配对的风格化数据进行训练，用两阶段训练策略，将风格学习与一致性学习解耦，在多种风格下保持图像的语义...
AI工具

0 35 0
baidu09_com

发布了文章 2个月前

OmniCam – 浙大联合上海交大等高校推出的多模态视频生成框架

OmniCam 是先进的多模态视频生成框架，通过摄像机控制实现高质量的视频生成。支持多种输入模态组合，用户可以提供文本描述、视频中的轨迹或图像作为参考，精确控制摄像机的运动轨迹。...
AI工具

0 42 0

58 59 60 61 62 63 64 65 66 67

关灯返回顶部