MME-CoT 是香港中文大学(深圳)、香港中文大学、字节跳动、南京大学、上海人工智能实验室、宾夕法尼亚大学、清华大学等机构共同推出的用于评估大型多模态模型(LMMs)链式思维(Chain-of-Thought, CoT)推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域,包含1,130个问题,每个问题都标注了关键推理步骤和参考图像描述。MME-CoT 基准基于三个新颖的评估指标——推理质量(逻辑合理性)、鲁棒性(对感知任务的干扰)和效率(推理步骤的相关性)——对模型的推理能力进行全面评估。实验结果揭示了当前多模态模型在CoT推理中存在的一些关键问题,例如反思机制的低效性和对感知任务的负面影响。


全部评论
留言在赶来的路上...
发表评论