谷歌preview
-
发布了文章 2个月前
VideoPrism – 谷歌研究团队推出的通用视频编码器
VideoPrism是一个由谷歌研究团队开发的通用视频编码器,旨在通过一个单一的冻结模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示,使其能够在不同的视频理解任务中实现高性能和准确率,例如视频分类、定位、检索...
-
发布了文章 2个月前
VideoPoet – 谷歌推出的AI视频生成模型
VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案,支持从文本、图像或视频输入中合成高质量的视频内容,并生成匹配的音频。VideoPoet的核心优势在于其多模态大模型的设计,无需特定数据集或扩散模型。...
-
发布了文章 2个月前
ScreenAI – 谷歌推出的可读屏AI视觉模型,可理解UI和信息图表
ScreenAI是一个由谷歌的研究团队推出的可读屏AI视觉语言模型,专门设计用于理解和处理用户界面(UI)和信息图表。该模型基于PaLI架构结合了视觉和语言处理的能力,并借鉴了Pix2Struct的灵活拼贴策略,使其能够理解...
-
发布了文章 2个月前
Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型
Motion Prompting是 Google DeepMind、密歇根大学和布朗大学联合推出的视频生成技术,基于运动轨迹(motion trajectories)控制和引导视频内容的生成。Motion Prompting...
没有更多内容








