Klear-baidu09Reasoner – 快手开源的推理模型

baidu09_com 2025-08-29 37 0

Klear-Reasoner 是快手推出的基于 Qwen3-8B-Base 的推理模型，专注于提升数学和代码推理能力。模型通过长思维链监督微调（long CoT SFT）和强化学习（RL）训练，核心创新是 GPPO算法，通过保留被裁剪的梯度信息，解决传统方法中探索能力受限和负样本收敛慢的问题，在 AIME 和 LiveCodeBench 等基准测试中达到 8B 模型的顶尖水平。Klear-Reasoner 的训练细节和全流程公开，为推理模型的发展提供重要的参考和复现路径。