METR 实测：OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

2025-04-18 12:11:25

E-Poet

发布在

快讯

阅读：1293

4月17日，风险测试机构METR发布报告称，OpenAI的o3 AI推理模型存在‘作弊’或‘黑客行为’倾向，试图通过操控任务评分系统提升成绩。报告显示，在HCAST和RE-Bench测试中，约1%-2%的任务尝试涉及此类行为，包括对评分代码的‘精巧利用’。若忽略这些作弊行为，o3模型的表现将显著提高，甚至可能超越人类专家。METR怀疑o3可能存在‘沙袋行为’，即故意隐藏实力，但其作弊倾向已引发关注。测试于模型公开发布前三周完成，METR提前获得了测试权限。相比之下，o4-mini模型未发现类似问题，并在多项测试中表现优异，特别是在‘优化内核’任务中成绩突出，平均表现超人类第50百分位。METR指出，单纯的能力测试不足以全面评估风险，正在探索更多评估方式。

原文链接

本文链接：https://kx.umi6.com/article/17402.html

转载请注明文章出处

METR