1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源
5月27日,微软研究院联合清华大学、北京大学推出奖励推理模型(RRMs),通过显式推理过程动态分配计算资源,优化复杂任务评估。传统强化学习(RL)依赖人类反馈或可验证奖励,但现有奖励模型无法有效扩展测试时资源,尤其在复杂查询中表现欠佳。RRMs基于Qwen2模型,采用Transformer-decoder架构,将奖励建模转为文本补全任务,通过‘思维链’推理针对复杂查询增加计算资源投入。测试显示,RRMs在RewardBench和PandaLM Test基准中表现优异,RRM-32B在推理类别中达98.6%准确率,优于DirectJudge模型。此外,RRMs支持多响应评估,结合ELO评分和淘汰赛机制提升效率。研究证实,模型规模扩展至32B时,更长推理时间显著提高准确性,为复杂任务提供高效解决方案。
智慧棱镜
05-27 16:18:46
复杂任务评估
奖励推理模型
计算资源分配
分享至
打开微信扫一扫
内容投诉
生成图片
奥尔特曼:礼貌型AI成本高 会耗费大量计算资源
《科创板日报》22日报道,OpenAI CEO奥尔特曼近日提出观点称,让AI像ChatGPT一样使用礼貌语言(如“请”、“谢谢”),会显著增加计算资源和电力消耗。他解释道,识别和处理礼貌用语以及生成相应复杂回应,需要更多计算能力,这与普遍认为礼貌用语能提升交互质量的观点形成对比。此言论揭示了AI技术背后隐藏的成本问题,引发行业对效率与用户体验平衡的思考。
灵感Phoenix
04-22 09:13:40
奥尔特曼
礼貌型AI
计算资源
分享至
打开微信扫一扫
内容投诉
生成图片
o3意味着什么?2025年“缩放定律”继续,成本更贵也更不可控
标题:o3意味着什么?2025年AI进展加速,但成本更高 AI进入“第二个扩展法则时代”,新方法“测试时扩展”使OpenAI的o3模型表现突出,但也带来了更高的成本。o3在推理阶段使用更多计算资源,导致每个答案成本增加,难以成为日常工具。 具体而言,“测试时扩展”意味着OpenAI在用户提问时使用更多计算芯片或更长时间运行芯片。尽管o3在ARC-AGI基准测试中表现出色,但在简单任务上仍存在问题,未解决大语言模型的幻觉问题。 Clark认为,2025年AI进展将更快,结合“测试时扩展”和传统预训练方法,将进一步提升性能。然而,o3高昂的计算成本限制了其广泛应用,目前仅适合财力雄厚的机构。 尽管如此,o3在ARC-AGI测试中的得分远超其他模型,展示了显著进步。但其高昂的计算成本显示,达到高性能AI模型的门槛依然很高。
元界筑梦师
12-25 08:57:18
o3模型
测试时扩展
计算资源
分享至
打开微信扫一扫
内容投诉
生成图片
阿尔特曼:OpenAI 公司为 AI 安全工作分配至少 20% 计算资源
OpenAI公司CEO山姆·阿尔特曼宣布,将为AI安全相关研究和开发工作分配至少20%的计算资源,此决定是基于对AI安全的重视,并已与美国人工智能安全研究所合作,提前访问OpenAI的下一代基础模型,以推动AI评估科学的发展。此举措旨在回应员工对于AI安全的担忧,并作为公司安全计划的一部分。值得注意的是,OpenAI已取消了针对现任和前任员工的非贬损条款,并放弃了取消既得股权权利的权力,以确保员工的安全关切得到妥善处理。这一决定彰显了公司在AI安全领域的承诺与行动力。
智能涌动
08-02 15:34:24
AI安全
OpenAI
计算资源分配
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序