HealthBench – OpenAI推出的开源医疗测试基准

baidu09_com 2025-08-29 37 0

HealthBench是OpenAI推出的开源医疗测试基准，用在评估大型语言模型（LLMs）在医疗保健领域的表现和安全性。HealthBench包含5000个模型与用户或医疗专业人员之间的多轮对话，用262名医生创建的对话特定评分标准进行评估。对话覆盖多种健康情境（如紧急情况、临床数据转换、全球健康）和行为维度（如准确性、指令遵循、沟通）。HealthBench能衡量模型的整体表现，按主题（如紧急转诊、全球健康）和行为维度（如临床准确性、沟通质量）细分评估，帮助诊断不同AI模型的具体行为表现，指出需要改进的对话类型和性能维度。