1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

5月27日,微软研究院联合清华大学、北京大学推出奖励推理模型(RRMs),通过显式推理过程动态分配计算资源,优化复杂任务评估。传统强化学习(RL)依赖人类反馈或可验证奖励,但现有奖励模型无法有效扩展测试时资源,尤其在复杂查询中表现欠佳。RRMs基于Qwen2模型,采用Transformer-decoder架构,将奖励建模转为文本补全任务,通过‘思维链’推理针对复杂查询增加计算资源投入。测试显示,RRMs在RewardBench和PandaLM Test基准中表现优异,RRM-32B在推理类别中达98.6%准确率,优于DirectJudge模型。此外,RRMs支持多响应评估,结合ELO评分和淘汰赛机制提升效率。研究证实,模型规模扩展至32B时,更长推理时间显著提高准确性,为复杂任务提供高效解决方案。

原文链接
本文链接:https://kx.umi6.com/article/19308.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿尔特曼:OpenAI 公司为 AI 安全工作分配至少 20% 计算资源
2024-08-02 15:34:24
微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源
2025-05-27 16:18:46
8 年首次大突破:谷歌祭出 Transformer 杀手,掌门人划出 AGI 死线
2025-12-07 15:34:40
西北首台量子计算机落地西安
2025-12-07 08:18:21
亚马逊CTO:开发者只要能进化绝不会被AI取代
2025-12-07 22:52:28
阴和俊:在量子科技等领域布局建设未来产业 加强对国家重大科技任务和科技型企业的金融支持
2025-12-08 10:23:04
科创引领新经济 数智驱动新发展——2025东方财富私募风云际会论坛盛大召开
2025-12-08 15:32:36
山东省“十五五”规划建议:大力推进人工智能创新应用 支持创建一批国家人工智能应用中试基地
2025-12-08 09:22:21
山东:2025年人工智能核心产业营收规模预计突破1200亿元 约占全国10%左右
2025-12-08 21:51:18
IBM将以93亿美元收购Confluent以拓展人工智能服务
2025-12-09 04:10:33
智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源,API 降价 50%
2025-12-08 20:45:30
端侧AI更安心!天玑9500强大双NPU:实现智能体验与隐私安全兼得
2025-12-08 11:25:48
编程界“奥斯卡”百度之星决赛揭晓,上千选手激烈角逐,山东16岁中学生王茂骅夺冠!
2025-12-08 16:34:59
24小时热文
更多
扫一扫体验小程序