Sapiens是Meta实验室推出的AI视觉模型,专为理解图片和视频中的人类动作设计。支持二维姿势预估、身体部位分割、深度估计和表面法线预测等任务,采用视觉转换器架构。模型参数从3亿到20亿不等,原生支持1K高分辨率推理,易于针对不同任务调整。即使在标注数据稀缺的情况下,Sapiens也能展现出卓越的泛化能力,为虚拟现实、增强现实等应用提供了强大支持。

Sapiens – Meta推出的AI视觉模型,能理解图片和视频中的人类动作  第1张
(图片来源网络,侵删)
Sapiens – Meta推出的AI视觉模型,能理解图片和视频中的人类动作  第2张
(图片来源网络,侵删)