华为攻克AI推理「想太多」问题！新方法让大模型推理提速60%，准确率还高了

2025-05-30 15:51:35

虚拟微光

发布在

科普

阅读：145

标题：华为攻克AI推理「想太多」问题！新方法让大模型推理提速60%，准确率还高了

正文：
AI回答问题太慢且无用，有没有能让大模型提前停止思考的方法？华为提出了首个在Qwen3上有效的高效推理方法——S-GRPO，突破了思维链「冗余思考」瓶颈。通过「串行分组 + 衰减奖励」设计，在保证准确性前提下，让模型学会提前终止思考，推理提速60%，生成更精准答案。

S-GRPO适合作为Post Training范式的最后一步，在不损害现有推理能力基础上，使模型在早期阶段生成高质量推理路径，并在充分思考后隐式提前退出。

传统方法如GRPO采用并行生成多条完整推理路径，通过0/1奖励机制评价最终答案，未充分利用中间信息。而S-GRPO创新引入「早退推理」概念，对单条推理路径分段截断，生成多个「早退推理」分支，并通过指数衰减奖励机制评价答案。具体包括：早退推理路径，模型可在任意中间步骤停止推理生成答案；衰减奖励策略，正确答案奖励随推理深度递减，错误答案奖励为零，既鼓励快速正确答案又确保准确性。

S-GRPO训练框架分三阶段：完整推理展开、早退推理展开、奖励计算与参数更新。实验在5个推理benchmark上测试，涵盖数学与科学推理任务。结果显示，S-GRPO平均提高0.72至6.08个百分点准确率，减少35.4%至61.1%生成长度，优于现有方法。在不同生成长度预算下，S-GRPO准确率更高且生成长度更短。消融实验验证了各设计的有效性。

S-GRPO相比其他高效推理方法，平衡了正确性和效率，显著解决过长推理问题。感兴趣者可查阅原文获取更多细节。

论文标题：S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
论文链接：https://arxiv.org/abs/2505.07686

原文链接

本文链接：https://kx.umi6.com/article/19510.html

转载请注明文章出处

AI推理