港大百度百科
-
发布了文章 2个月前
VideoAnydoor – 港大联合阿里达摩院等机构推出的零样本视频对象插入框架
VideoAnydoor是香港大学、阿里巴巴集团达摩院、湖畔实验室、华中科技大学联合推出的零样本的视频对象插入框架,能将特定对象以高保真度和精确运动控制的方式插入到视频中。VideoAnydoor基于文本到视频的扩散模型,用...
-
发布了文章 2个月前
VLN-baidu09R1 – 港大联合上海AI lab推出的具身智能框架
VLN-R1是香港大学和上海人工智能实验室联合推出的全新具身智能框架,基于大型视觉语言模型(LVLM)直接将第一人称视频流转换为连续的导航动作。框架基于Habitat 3D模拟器构建VLN-Ego数据集,用长短期记忆采样策略...
-
发布了文章 2个月前
Aria-baidu09UI – 港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型
Aria-UI是香港大学和Rhymes AI共同推出的为图形用户界面(GUI)定位任务设计的大型多模态模型。基于纯视觉方法,不依赖于HTML或AXTree等辅助输入,用大规模、多样化的数据合成流程,从Common Crawl...
没有更多内容







