AI工具
发布文章-
发布了文章 2个月前
ViewCrafter – 北大、港中文联合腾讯提出的高保真新视图合成技术
ViewCrafter 是北大和港中文联合腾讯提出的一种先进的视频扩散模型,能从单个或少量图像中合成高保真的新视图。结合了视频扩散模型的生成能力和基于点的3D表示,精确控制相机姿态生成高质量视频帧。...
-
发布了文章 2个月前
Vidu
Vidu是由生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性AI视频生成大模型。基于原创的 Diffusion 与 Transformer 融合的 U-ViT 架构,能一键生成长达 32 秒、分辨率高达 108...
-
发布了文章 2个月前
Vidu Q1 – 生数科技推出的高可控视频大模型
Vidu Q1 是清华大学人工智能研究院副院长、生数科技创始人兼首席科学家朱军教授团队推出的高可控视频大模型。支持生成1080p高清视频,画质细腻,细节丰富,能满足5秒视频的生成需求。首尾帧功能升级后,仅需两张图即可生成电影...
-
发布了文章 2个月前
Vidu 1.5 – 生数科技推出支持多主体一致性的多模态大模型
Vidu 1.5是生数科技推出的AI视频生成平台最新版本,致力于帮助创作者自由表达和高效创作。具备多模态视频大模型,支持参考生视频、图生视频和文生视频,确保角色、物体、场景的一致性。Vidu 1.5能在30秒内生成高清视频,...
-
发布了文章 2个月前
VideoWorld – 字节联合交大等机构推出的自回归视频生成模型
VideoWorld是北京交通大学、中国科学技术大学和字节跳动合作开展的一项研究项目,探索深度生成模型是否能仅通过未标注的视频数据学习复杂的知识,包括规则、推理和规划能力。...
-
发布了文章 2个月前
VideoVAE+ – 香港科技大学推出的先进跨模态视频变分自编码器
VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE),通过引入新的时空分离压缩机制和文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持了良好的时...
-
发布了文章 2个月前
VideoTuna – AI视频生成应用代码库,支持多模型和全面的视频生成流程
VideoTuna是集成多种AI视频生成模型的代码库,支持文本到视频、图像到视频和文本到图像的转换。VideoTuna提供预训练、持续训练、后训练对齐和微调等全面视频生成流程,支持U-Net和DiT架构,并计划推出3D视频V...
-
发布了文章 2个月前
VideoReward – 港中文、清华、快手等联合推出的视频生成偏好数据集及奖励模型
VideoReward 是香港中文大学、清华大学、快手科技等联合创建的视频生成偏好数据集及奖励模型。包含182,000条标注数据,涵盖视觉质量、运动质量和文本对齐三个维度,用于优化视频生成模型。...
-
发布了文章 2个月前
VideoRefer – 浙大联合阿里达摩学院推出的视频对象感知与推理技术
VideoRefer是浙江大学和阿里达摩学院联合推出的,专门用在视频中对象的感知和推理。基于增强视频大型语言模型(Video LLMs)的空间-时间理解能力,让模型能在视频中对任何对象进行细粒度的感知和推理。...
-
发布了文章 2个月前
VideoRAG – 用于长视频理解的检索增强生成技术
VideoRAG是用于长视频理解的检索增强生成(Retrieval-Augmented Generation)技术。通过提取视频中的视觉对齐辅助文本,帮助大型视频语言模型(LVLMs)更好地理解和处理长视频内容。...
-
发布了文章 2个月前
VideoPrism – 谷歌研究团队推出的通用视频编码器
VideoPrism是一个由谷歌研究团队开发的通用视频编码器,旨在通过一个单一的冻结模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示,使其能够在不同的视频理解任务中实现高性能和准确率,例如视频分类、定位、检索...
-
发布了文章 2个月前
VideoPoet – 谷歌推出的AI视频生成模型
VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案,支持从文本、图像或视频输入中合成高质量的视频内容,并生成匹配的音频。VideoPoet的核心优势在于其多模态大模型的设计,无需特定数据集或扩散模型。...
-
发布了文章 2个月前
VideoPhy – UCLA 联合谷歌推出评估视频生成模型物理常识能力的基准测试
VideoPhy是UCLA和谷歌研究研究院联合推出的,首个评估视频生成模型物理常识能力的基准测试,能衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy基准包含688个描述物理互动的字幕,用在从多种文本到视频模型中...
-
发布了文章 2个月前
VideoPainter – 港中文联合腾讯等机构推出的视频修复和编辑框架
VideoPainter 是香港中文大学、腾讯ARC Lab、东京大学、澳门大学等机构推出的视频修复和编辑框架,专门用在处理任意长度的视频内容。VideoPainter基于双分支架构,结合轻量级上下文编码器和预训练的扩散模型...
-
发布了文章 2个月前
VideoMaker – 浙大联合腾讯和华为推出的零样本定制视频生成框架
VideoMaker是浙江大学、腾讯和华为诺亚方舟实验室共同开发的创新项目,基于视频扩散模型(VDM)的零样本定制视频生成框架。与传统方法不同,VideoMaker无需额外模型即可直接从参考图片中提取和注入主题特征,实现个性...































