浙大欢迎您
-
发布了文章 2个月前
VLM-baidu09R1 – 浙大 Om AI Lab 推出的视觉语言模型
VLM-R1 是 Om AI Lab 推出的基于强化学习技术的视觉语言模型,通过自然语言指令精确定位图像中的目标物体,如根据描述“图中红色的杯子”找到对应的图像区域。模型基于 Qwen2.5-VL 架构,结合 DeepSee...
-
发布了文章 2个月前
DRA-baidu09Ctrl – 浙大联合蚂蚁等机构推出的跨模态图片编辑框架
DRA-Ctrl(Dimension-Reduction Attack)是浙江大学联合蚂蚁集团等机构推出的创新跨模态图片编辑框架。框架借助视频生成模型的视觉、时间、空间和因果等多维度高维特征表示,实现对图片主体的状态预测与精...
没有更多内容





