奖励推理模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

微软携手清华、北大推出奖励推理模型：根据 AI 任务复杂性动态分配计算资源

5月27日，微软研究院联合清华大学、北京大学推出奖励推理模型（RRMs），通过显式推理过程动态分配计算资源，优化复杂任务评估。传统强化学习（RL）依赖人类反馈或可验证奖励，但现有奖励模型无法有效扩展测试时资源，尤其在复杂查询中表现欠佳。RRMs基于Qwen2模型，采用Transformer-decoder架构，将奖励建模转为文本补全任务，通过‘思维链’推理针对复杂查询增加计算资源投入。测试显示，RRMs在RewardBench和PandaLM Test基准中表现优异，RRM-32B在推理类别中达98.6%准确率，优于DirectJudge模型。此外，RRMs支持多响应评估，结合ELO评分和淘汰赛机制提升效率。研究证实，模型规模扩展至32B时，更长推理时间显著提高准确性，为复杂任务提供高效解决方案。

原文链接