Embodied Reasoner是浙江大学、中国科学院软件研究所、阿里巴巴集团等机构推出的新型的具身交互推理模型,基于视觉搜索、推理和行动协同完成复杂任务。模型基于模仿学习、自我探索和自我修正的三阶段训练方法,生成多样化的思考过程(如情境分析、空间推理、自我反思等),基于交互历史和空间布局进行高效规划和推理。在AI2-THOR模拟器的多种任务中,Embodied Reasoner显著优于现有的视觉推理模型,在复杂长时序任务中表现出色,减少重复搜索和逻辑不一致问题。

Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型  第1张
(图片来源网络,侵删)
Embodied Reasoner – 浙大联合阿里等机构推出的具身交互推理模型  第2张
(图片来源网络,侵删)