首页 > AI工具第21页

AI工具

发布文章

今日：0| 一周：0| 文章：2

新窗

baidu09_com

发布了文章 2个月前

Veo 3 – 谷歌推出的新一代视频生成模型

Veo 3是谷歌I/O开发者大会上发布的新一代视频生成模型。Veo 3是谷歌首个可生成视频背景音效的模型，能合成画面，能为鸟鸣、街头交通等场景配上相应的音效，可生成人物对话。模型在物理模拟与口型同步方面表现出色，视频中的人物...
AI工具

0 37 0
baidu09_com

发布了文章 2个月前

Veo 2 – 谷歌 DeepMind 推出的 AI 视频生成模型，支持高达 4K 分辨率

Veo 2 是 Google DeepMind 推出的 AI 视频生成模型，能根据文本或图像提示生成高质量视频内容。Veo 2支持高达 4K 分辨率的视频制作，理解镜头控制指令，能模拟现实世界的物理现象及人类表情。Veo 2...
AI工具

0 44 0
baidu09_com

发布了文章 2个月前

VectorVein – 开源的无代码AI工作流工具，简单拖拽定制AI应用

VectorVein 是一款开源的无代码AI工作流工具，通过简化的拖拽操作，让用户无需编程知识即可构建智能工作流，实现日常任务的自动化。它支持数据处理、分析和知识管理等多种应用场景，具备无代码、AI驱动、可定制化等特点。...
AI工具

0 47 0
baidu09_com

发布了文章 2个月前

VeOmni – 字节跳动开源的全模态PyTorch原生训练框架

VeOmni 是字节跳动 Seed 团队开源的全模态分布式训练框架，基于 PyTorch 设计。VeOmni 以模型为中心，将分布式并行逻辑与模型计算解耦，支持灵活组合多种并行策略（如 FSDP、SP、EP），能高效扩展至超...
AI工具

0 47 0
baidu09_com

发布了文章 2个月前

Vary-baidu09toy：开源的小型视觉多模态模型

Vary-toy是一个小型的视觉语言模型（LVLM），由来自旷视、国科大、华中大的研究人员共同提出，旨在解决大型视觉语言模型（LVLMs）在训练和部署上的挑战。对于资源有限的研究者来说，大型模型通常拥有数十亿参数，难以在消费...
AI工具

0 37 0
baidu09_com

发布了文章 2个月前

Vanna – 开源AI检索生成框架，自动生成精确的SQL查询

Vanna是开源的Python RAG（Retrieval-Augmented Generation）框架，能帮助用户基于大型语言模型（LLMs）为其数据库生成精确的SQL查询。Vanna用两步简单流程操作：首先在用户数据上...
AI工具

0 38 0
baidu09_com

发布了文章 2个月前

Valley – 字节跳动推出的多模态大模型

Valley是字节跳动推出的多模态大模型，用于处理涉及文本、图像和视频数据的多样化任务。Valley在内部电子商务和短视频基准测试中取得了最佳成绩，并在OpenCompass测试中展现出色性能，尤其是在小于10B参数规模的模...
AI工具

0 41 0
baidu09_com

发布了文章 2个月前

VSI-baidu09Bench – 李飞飞谢赛宁团队推出的视觉空间智能基准测试集

VSI-Bench（Visual-Spatial Intelligence Benchmark）是李飞飞、谢赛宁及他们的研究团队推出的视觉空间智能基准测试集，研究者构建用在评估多模态大型语言模型（MLLMs）在空间认知和理解...
AI工具

0 35 0
baidu09_com

发布了文章 2个月前

VRAG-baidu09RL – 阿里通义推出的多模态RAG推理框架

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，专注于提升视觉语言模型（VLMs）在处理视觉丰富信息时的检索、推理和理解能力。基于定义视觉感知动作空间，让模型能从粗粒度到细粒度逐步获取信息，更...
AI工具

0 43 0
baidu09_com

发布了文章 2个月前

VQAScore – CMU联合Meta推出的文本到视觉图像生成评估方法

VQAScore是CMU和Meta联合推出的评估方法，基于视觉问答（VQA）模型衡量由文本提示生成的图像质量。VQAScore用计算模型对“Does this figure show {text}?”这一问题回答“是”的概率...
AI工具

0 35 0
baidu09_com

发布了文章 2个月前

VPP – 清华和星动纪元推出的首个AIGC机器人大模型

VPP（Video Prediction Policy）是清华大学和星动纪元推出的首个AIGC机器人大模型。基于预训练的视频扩散模型，学习互联网上的大量视频数据，直接预测未来场景生成机器人动作。VPP能提前预知未来，实现高频...
AI工具

0 33 0
baidu09_com

发布了文章 2个月前

VMix – 字节联合中科大推出增强模型生成美学质量的适配器

VMix是创新的即插即用美学适配器，提升文本到图像扩散模型生成图像的美学质量。通过解耦输入文本提示中的内容描述和美学描述，将细粒度的美学标签（如色彩、光线、构图等）作为额外条件引入生成过程。...

AI工具

0 41 0
baidu09_com

发布了文章 2个月前

VMB – 中科院联合多所高校机构推出增强多模态音乐生成的框架

VMB（Visuals Music Bridge）是中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室、上海交通大学等机构推出的多模态音乐生成框架，能从文本、图像和视频等多种输入模态生成音乐。...

AI工具

0 36 0
baidu09_com

发布了文章 2个月前

VLOGGER – 谷歌推出的图像到合成人物动态视频的模型

VLOGGER AI是谷歌的研究团队开发的一个多模态扩散模型，专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的主要功能在于使用人工智能模型，将一张静态图片转换成一个动态的视频角色，同时保持照片中人物的...
AI工具

0 37 0
baidu09_com

发布了文章 2个月前

VLN-baidu09R1 – 港大联合上海AI lab推出的具身智能框架

VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架，基于大型视觉语言模型（LVLM）直接将第一人称视频流转换为连续的导航动作。框架基于Habitat 3D模拟器构建VLN-Ego数据集，用长短期记忆采样策略...
AI工具

0 43 0

17 18 19 20 21 22 23 24 25 26

关灯返回顶部