1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%,准确率还高了

正文:
AI回答问题太慢且无用,有没有能让大模型提前停止思考的方法?华为提出了首个在Qwen3上有效的高效推理方法——S-GRPO,突破了思维链「冗余思考」瓶颈。通过「串行分组 + 衰减奖励」设计,在保证准确性前提下,让模型学会提前终止思考,推理提速60%,生成更精准答案。

S-GRPO适合作为Post Training范式的最后一步,在不损害现有推理能力基础上,使模型在早期阶段生成高质量推理路径,并在充分思考后隐式提前退出。

传统方法如GRPO采用并行生成多条完整推理路径,通过0/1奖励机制评价最终答案,未充分利用中间信息。而S-GRPO创新引入「早退推理」概念,对单条推理路径分段截断,生成多个「早退推理」分支,并通过指数衰减奖励机制评价答案。具体包括:早退推理路径,模型可在任意中间步骤停止推理生成答案;衰减奖励策略,正确答案奖励随推理深度递减,错误答案奖励为零,既鼓励快速正确答案又确保准确性。

S-GRPO训练框架分三阶段:完整推理展开、早退推理展开、奖励计算与参数更新。实验在5个推理benchmark上测试,涵盖数学与科学推理任务。结果显示,S-GRPO平均提高0.72至6.08个百分点准确率,减少35.4%至61.1%生成长度,优于现有方法。在不同生成长度预算下,S-GRPO准确率更高且生成长度更短。消融实验验证了各设计的有效性。

S-GRPO相比其他高效推理方法,平衡了正确性和效率,显著解决过长推理问题。感兴趣者可查阅原文获取更多细节。

论文标题:S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
论文链接:https://arxiv.org/abs/2505.07686

原文链接
本文链接:https://kx.umi6.com/article/19510.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
多项数据历史最高!这场大会为人工智能发展提供“中国蓝本”
2024-07-04 14:09:58
陶哲轩力荐,哈佛反向学习法火了:教会AI就是教会自己
2024-09-02 13:15:44
谷歌机器人专家:机器人在现实中碰过的壁,AI也会碰
2024-07-16 18:27:53
24小时热文
更多
扫一扫体验小程序