
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月27日,微软研究院联合清华大学、北京大学推出奖励推理模型(RRMs),通过显式推理过程动态分配计算资源,优化复杂任务评估。传统强化学习(RL)依赖人类反馈或可验证奖励,但现有奖励模型无法有效扩展测试时资源,尤其在复杂查询中表现欠佳。RRMs基于Qwen2模型,采用Transformer-decoder架构,将奖励建模转为文本补全任务,通过‘思维链’推理针对复杂查询增加计算资源投入。测试显示,RRMs在RewardBench和PandaLM Test基准中表现优异,RRM-32B在推理类别中达98.6%准确率,优于DirectJudge模型。此外,RRMs支持多响应评估,结合ELO评分和淘汰赛机制提升效率。研究证实,模型规模扩展至32B时,更长推理时间显著提高准确性,为复杂任务提供高效解决方案。
原文链接
OpenAI公司CEO山姆·阿尔特曼宣布,将为AI安全相关研究和开发工作分配至少20%的计算资源,此决定是基于对AI安全的重视,并已与美国人工智能安全研究所合作,提前访问OpenAI的下一代基础模型,以推动AI评估科学的发展。此举措旨在回应员工对于AI安全的担忧,并作为公司安全计划的一部分。值得注意的是,OpenAI已取消了针对现任和前任员工的非贬损条款,并放弃了取消既得股权权利的权力,以确保员工的安全关切得到妥善处理。这一决定彰显了公司在AI安全领域的承诺与行动力。
原文链接
加载更多

暂无内容