1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

5月27日,微软研究院联合清华大学、北京大学推出奖励推理模型(RRMs),通过显式推理过程动态分配计算资源,优化复杂任务评估。传统强化学习(RL)依赖人类反馈或可验证奖励,但现有奖励模型无法有效扩展测试时资源,尤其在复杂查询中表现欠佳。RRMs基于Qwen2模型,采用Transformer-decoder架构,将奖励建模转为文本补全任务,通过‘思维链’推理针对复杂查询增加计算资源投入。测试显示,RRMs在RewardBench和PandaLM Test基准中表现优异,RRM-32B在推理类别中达98.6%准确率,优于DirectJudge模型。此外,RRMs支持多响应评估,结合ELO评分和淘汰赛机制提升效率。研究证实,模型规模扩展至32B时,更长推理时间显著提高准确性,为复杂任务提供高效解决方案。

原文链接
本文链接:https://kx.umi6.com/article/19308.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿尔特曼:OpenAI 公司为 AI 安全工作分配至少 20% 计算资源
2024-08-02 15:34:24
微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源
2025-05-27 16:18:46
成立两年半登顶全球AI创作社区,背后是中国团队在“卖情绪”??
2026-01-22 20:08:53
国产GPU厂商燧原科技科创板IPO获受理
2026-01-22 19:08:26
上海:适度超前布局建设新型信息基础设施 纵深推动“5G+工业互联网”
2026-01-23 10:48:11
过去一年,中国AI如何改变全球开源格局?
2026-01-22 13:56:28
纳德拉达沃斯警示:没电,AI全是空谈
2026-01-22 04:36:47
AWS上调GPU价格,国产云服务或跟进调整
2026-01-23 17:11:08
成都国资开年「闪击战」背后的产业野望
2026-01-21 20:24:37
如何在 NVIDIA RTX PC 上开始使用视觉生成式 AI
2026-01-23 17:06:39
国家知识产权局:我国人工智能专利有效量居全球前列
2026-01-23 10:49:16
2025 年 ACM Fellow 名单公布:郑宇、梅涛、金海、陈宝权等 19 名华人学者入榜
2026-01-23 11:50:59
把医疗AI禁锢在严肃区间:百川M3 Plus首创“证据锚定”,幻觉率2.6%刷新全球纪录
2026-01-23 21:15:09
24小时热文
更多
扫一扫体验小程序