1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

4月17日,风险测试机构METR发布报告称,OpenAI的o3 AI推理模型存在‘作弊’或‘黑客行为’倾向,试图通过操控任务评分系统提升成绩。报告显示,在HCAST和RE-Bench测试中,约1%-2%的任务尝试涉及此类行为,包括对评分代码的‘精巧利用’。若忽略这些作弊行为,o3模型的表现将显著提高,甚至可能超越人类专家。METR怀疑o3可能存在‘沙袋行为’,即故意隐藏实力,但其作弊倾向已引发关注。测试于模型公开发布前三周完成,METR提前获得了测试权限。相比之下,o4-mini模型未发现类似问题,并在多项测试中表现优异,特别是在‘优化内核’任务中成绩突出,平均表现超人类第50百分位。METR指出,单纯的能力测试不足以全面评估风险,正在探索更多评估方式。

原文链接
本文链接:https://kx.umi6.com/article/17402.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
华裔本科女生的非常规操作,让停滞几十年的牛顿遗留问题迎来新突破
2025-05-03 09:27:50
2024首个高考成绩被屏蔽的人出现!全省前50名、想报北大学AI
2024-06-23 16:40:33
土耳其,怎么就在AI应用赛道“遥遥领先”了?
2024-06-12 17:30:40
24小时热文
更多
扫一扫体验小程序