Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型在视觉推理领域表现突出,同时在数学、代码和文本推理方面也处于第一梯队。采用多模态联合强化学习,基于 PPO 策略在图像空间引入可验证奖励机制,提升泛化性和鲁棒性。通过多模态合成数据训练,有效解决了训练中的跷跷板问题。


Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像完成复杂推理任务。模型在视觉推理领域表现突出,同时在数学、代码和文本推理方面也处于第一梯队。采用多模态联合强化学习,基于 PPO 策略在图像空间引入可验证奖励机制,提升泛化性和鲁棒性。通过多模态合成数据训练,有效解决了训练中的跷跷板问题。
全部评论
留言在赶来的路上...
发表评论