Step-baidu09R1-baidu09V-baidu09Mini – 阶跃星辰最新推出的多模态推理模型

baidu09_com 2025-08-31 33 0

Step-R1-V-Mini 是阶跃星辰最新推出的多模态推理模型。支持图文输入和文字输出，具备良好的指令遵循和通用能力，能高精度感知图像完成复杂推理任务。模型在视觉推理领域表现突出，同时在数学、代码和文本推理方面也处于第一梯队。采用多模态联合强化学习，基于 PPO 策略在图像空间引入可验证奖励机制，提升泛化性和鲁棒性。通过多模态合成数据训练，有效解决了训练中的跷跷板问题。