5月27日,微软研究院联合清华大学、北京大学推出奖励推理模型(RRMs),通过显式推理过程动态分配计算资源,优化复杂任务评估。传统强化学习(RL)依赖人类反馈或可验证奖励,但现有奖励模型无法有效扩展测试时资源,尤其在复杂查询中表现欠佳。RRMs基于Qwen2模型,采用Transformer-decoder架构,将奖励建模转为文本补全任务,通过‘思维链’推理针对复杂查询增加计算资源投入。测试显示,RRMs在RewardBench和PandaLM Test基准中表现优异,RRM-32B在推理类别中达98.6%准确率,优于DirectJudge模型。此外,RRMs支持多响应评估,结合ELO评分和淘汰赛机制提升效率。研究证实,模型规模扩展至32B时,更长推理时间显著提高准确性,为复杂任务提供高效解决方案。
原文链接
本文链接:https://kx.umi6.com/article/19308.html
转载请注明文章出处
相关推荐
.png)
换一换
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
2025-07-18 17:42:26
Meta称不会签署欧盟最终版《通用人工智能行为准则》 批其“过度干预”
2025-07-18 20:45:41
AI+潮玩,何时跑出「赛博泡泡玛特」?
2025-07-18 05:33:27
453 文章
63421 浏览
24小时热文
更多

-
2025-07-20 10:03:13
-
2025-07-20 10:02:01
-
2025-07-20 09:01:50