MME-CoT 是香港中文大学(深圳)、香港中文大学、字节跳动、南京大学、上海人工智能实验室、宾夕法尼亚大学、清华大学等机构共同推出的用于评估大型多模态模型(LMMs)链式思维(Chain-of-Thought, CoT)推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域,包含1,130个问题,每个问题都标注了关键推理步骤和参考图像描述。MME-CoT 基准基于三个新颖的评估指标——推理质量(逻辑合理性)、鲁棒性(对感知任务的干扰)和效率(推理步骤的相关性)——对模型的推理能力进行全面评估。实验结果揭示了当前多模态模型在CoT推理中存在的一些关键问题,例如反思机制的低效性和对感知任务的负面影响。

MME-baidu09CoT – 港中文等机构推出评估视觉推理能力的基准框架  第1张
(图片来源网络,侵删)
MME-baidu09CoT – 港中文等机构推出评估视觉推理能力的基准框架  第2张
(图片来源网络,侵删)