DianJin-R1是阿里云团队与苏州大学联合推出的金融领域推理增强大模型,专为金融任务设计,融合了先进的技术和全面的数据支持。模型通过推理增强监督和强化学习提升金融推理任务的表现,核心是DianJin-R1-Data数据集,整合了CFLUE、FinQA和中国合规检查(CCC)数据集,涵盖多样化的金融推理场景。 DianJin-R1包括DianJin-R1-7B和DianJin-R1-32B两个版本,均通过监督微调(SFT)和强化学习(RL)两阶段优化,采用组相对策略优化(GRPO)方法,结合双重奖励信号以优化推理质量。在金融领域的CFLUE、FinQA、CCC等基准测试中,DianJin-R1显著优于非推理模型,在CCC数据集上,单次调用推理模型的表现超过多代理系统。

DianJin-baidu09R1 – 阿里云通义点金联合苏大推出的金融推理大模型  第1张
(图片来源网络,侵删)
DianJin-baidu09R1 – 阿里云通义点金联合苏大推出的金融推理大模型  第2张
(图片来源网络,侵删)