1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

5月27日,微软研究院联合清华大学、北京大学推出奖励推理模型(RRMs),通过显式推理过程动态分配计算资源,优化复杂任务评估。传统强化学习(RL)依赖人类反馈或可验证奖励,但现有奖励模型无法有效扩展测试时资源,尤其在复杂查询中表现欠佳。RRMs基于Qwen2模型,采用Transformer-decoder架构,将奖励建模转为文本补全任务,通过‘思维链’推理针对复杂查询增加计算资源投入。测试显示,RRMs在RewardBench和PandaLM Test基准中表现优异,RRM-32B在推理类别中达98.6%准确率,优于DirectJudge模型。此外,RRMs支持多响应评估,结合ELO评分和淘汰赛机制提升效率。研究证实,模型规模扩展至32B时,更长推理时间显著提高准确性,为复杂任务提供高效解决方案。

原文链接
本文链接:https://kx.umi6.com/article/19308.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源
2025-05-27 16:18:46
阿尔特曼:OpenAI 公司为 AI 安全工作分配至少 20% 计算资源
2024-08-02 15:34:24
Anthropic停服 智谱回应推出“Claude API 用户特别搬家计划”
2025-09-05 19:25:32
中盐集团与中国移动签署战略合作协议
2025-09-05 11:18:12
华纳兄弟探索起诉 Midjourney,指控其 AI 侵犯蝙蝠侠、超人、兔八哥等角色版权
2025-09-05 10:19:00
中国电科王平:国内半导体装备已进入“战国时代”
2025-09-05 21:27:41
港股机器人概念走强 行业商业化加速引发资本加注
2025-09-05 15:23:54
AI收入超预期!芯片巨头博通交出满分财报 神秘百亿订单带来惊喜
2025-09-05 09:15:08
英伟达砸15亿美元 从Lambda租用搭载自家芯片的GPU服务器
2025-09-05 15:26:12
博通公司股价盘初大涨15%市值增长2200亿美元 多家机构集体上调其目标价
2025-09-05 22:27:31
博通与OpenAI合作的独家芯片或将于明年上市
2025-09-05 10:22:40
一场会议聊透具身智能:模型、数据、场景,我们梳理出了关键洞察
2025-09-05 10:21:32
AIDC高速互联需求不止 OCS会是下一个答案吗?
2025-09-06 08:33:16
24小时热文
更多
扫一扫体验小程序