标题:华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%,准确率还高了
正文:
AI回答问题太慢且无用,有没有能让大模型提前停止思考的方法?华为提出了首个在Qwen3上有效的高效推理方法——S-GRPO,突破了思维链「冗余思考」瓶颈。通过「串行分组 + 衰减奖励」设计,在保证准确性前提下,让模型学会提前终止思考,推理提速60%,生成更精准答案。
S-GRPO适合作为Post Training范式的最后一步,在不损害现有推理能力基础上,使模型在早期阶段生成高质量推理路径,并在充分思考后隐式提前退出。
传统方法如GRPO采用并行生成多条完整推理路径,通过0/1奖励机制评价最终答案,未充分利用中间信息。而S-GRPO创新引入「早退推理」概念,对单条推理路径分段截断,生成多个「早退推理」分支,并通过指数衰减奖励机制评价答案。具体包括:早退推理路径,模型可在任意中间步骤停止推理生成答案;衰减奖励策略,正确答案奖励随推理深度递减,错误答案奖励为零,既鼓励快速正确答案又确保准确性。
S-GRPO训练框架分三阶段:完整推理展开、早退推理展开、奖励计算与参数更新。实验在5个推理benchmark上测试,涵盖数学与科学推理任务。结果显示,S-GRPO平均提高0.72至6.08个百分点准确率,减少35.4%至61.1%生成长度,优于现有方法。在不同生成长度预算下,S-GRPO准确率更高且生成长度更短。消融实验验证了各设计的有效性。
S-GRPO相比其他高效推理方法,平衡了正确性和效率,显著解决过长推理问题。感兴趣者可查阅原文获取更多细节。
论文标题:S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
论文链接:https://arxiv.org/abs/2505.07686
.png)

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21