斯坦福大学hci
-
发布了文章 2个月前
WorldScore – 斯坦福大学推出的世界生成模型统一评估基准
WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务,通过明确的基于相机轨迹的布局规范来实现不同方法的统一评估。...
-
发布了文章 2个月前
AxBench – 斯坦福大学推出评估语言模控制方法的基准测试框架
AxBench 是斯坦福大学推出的评估语言模型(LM)控制方法的基准测试框架。基于合成数据生成训练和评估数据,比较不同模型控制技术在概念检测和模型转向两个方面的表现。概念检测任务基于标记的合成数据评估模型对特定概念的识别能力...
没有更多内容





