1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

5月27日,微软研究院联合清华大学、北京大学推出奖励推理模型(RRMs),通过显式推理过程动态分配计算资源,优化复杂任务评估。传统强化学习(RL)依赖人类反馈或可验证奖励,但现有奖励模型无法有效扩展测试时资源,尤其在复杂查询中表现欠佳。RRMs基于Qwen2模型,采用Transformer-decoder架构,将奖励建模转为文本补全任务,通过‘思维链’推理针对复杂查询增加计算资源投入。测试显示,RRMs在RewardBench和PandaLM Test基准中表现优异,RRM-32B在推理类别中达98.6%准确率,优于DirectJudge模型。此外,RRMs支持多响应评估,结合ELO评分和淘汰赛机制提升效率。研究证实,模型规模扩展至32B时,更长推理时间显著提高准确性,为复杂任务提供高效解决方案。

原文链接
本文链接:https://kx.umi6.com/article/19308.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源
2025-05-27 16:18:46
阿尔特曼:OpenAI 公司为 AI 安全工作分配至少 20% 计算资源
2024-08-02 15:34:24
首个物理AI数据基座平台“无垠”落户浙江,专治机器人数据荒,家庭工业商业场景全覆盖
2026-03-09 19:00:56
全网刷屏的“龙虾” 真的劝你不要盲目跟风!
2026-03-09 15:51:25
20岁大学生花10天VibeCoding一个开源项目,获盛大3000万投资
2026-03-08 16:13:04
郑栅洁:从未来发展考虑 将推进人工智能超大规模智算集群、卫星互联网、可控核聚变等一系列重大工程和项目
2026-03-06 17:23:58
中东一场无人机轰炸 把全球智力干倒退了?
2026-03-08 07:42:40
最高法:打击滥用AI换脸等行为 斩断为电诈提供“技术助攻”的链条
2026-03-09 15:54:50
AMD 扩展锐龙 AI 嵌入式处理器产品组合 为工业与 AI 边缘解决方案提供可扩展的高效 AI 计算能力
2026-03-10 11:07:44
龙虾最大痛点被官方插件升级!对话永不忘记,GPT和Gemini最强模型都可接入
2026-03-09 13:43:10
网文作家遇职业危机!AI写作48小时生成500万字长篇小说
2026-03-08 15:12:48
技术获 NVIDIA、Pi 双重认可!原力灵机 DM0 模型重塑具身智能新范式
2026-03-06 20:31:01
2.2亿人正和AI谈恋爱 学者:AI伴侣对孤独或受伤的人有好处
2026-03-08 21:41:26
24小时热文
更多
扫一扫体验小程序