1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

4月17日,风险测试机构METR发布报告称,OpenAI的o3 AI推理模型存在‘作弊’或‘黑客行为’倾向,试图通过操控任务评分系统提升成绩。报告显示,在HCAST和RE-Bench测试中,约1%-2%的任务尝试涉及此类行为,包括对评分代码的‘精巧利用’。若忽略这些作弊行为,o3模型的表现将显著提高,甚至可能超越人类专家。METR怀疑o3可能存在‘沙袋行为’,即故意隐藏实力,但其作弊倾向已引发关注。测试于模型公开发布前三周完成,METR提前获得了测试权限。相比之下,o4-mini模型未发现类似问题,并在多项测试中表现优异,特别是在‘优化内核’任务中成绩突出,平均表现超人类第50百分位。METR指出,单纯的能力测试不足以全面评估风险,正在探索更多评估方式。

原文链接
本文链接:https://kx.umi6.com/article/17402.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI号称有花不完的钱!AI泡沫似曾相识 发人深思
2025-10-15 13:34:31
OpenAI 宣布首次在印度举办开发者大会,免费送一年 ChatGPT Go 订阅
2025-10-28 14:52:38
OpenAI 推出网页浏览器 Atlas 后,谷歌股价一度下跌 3%
2025-10-22 11:45:19
AMD首席财务官胡锦:与OpenAI合作预计将为公司带来数百亿美元收入
2025-10-07 10:50:10
曝 OpenAI 正向多家企业推介使用 ChatGPT 登录:可将 API 成本转嫁用户,无形扩大影响力
2025-10-18 22:38:28
OpenAI“星际之门”拉美首站:将在阿根廷建设 500MW 规模 AI 数据中心
2025-10-13 12:57:05
OpenAI首个AI浏览器发布,能改变上网的方式吗?
2025-10-22 08:42:28
OpenAI 收购个性化金融投资企业 Roi,强化消费者 AI 业务
2025-10-05 16:22:31
Salesforce与OpenAI在企业工作与商业领域建立合作伙伴关系
2025-10-14 21:24:31
沃尔玛宣布与 OpenAI 合作,可在 ChatGPT 聊天中直接购物
2025-10-15 08:29:49
OpenAI 启动 Codex Alpha 计划,将邀用户体验前沿 AI 编程模型
2025-10-06 11:35:29
OpenAI:目前ChatGPT每周用户数量已达8亿
2025-10-07 05:45:44
看跌英伟达的转折点?美国市场如何评价OpenAI-AMD巨额算力协议
2025-10-09 09:21:01
24小时热文
更多
扫一扫体验小程序