METR - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

非营利 AI 研究机构 METR：资深程序员使用 AI 编程反而会拖慢开发速度

非营利机构METR最新研究发现，资深程序员使用AI编程工具（如Cursor）完成熟悉代码库任务时，效率反而下降。研究显示，尽管开发者预计AI能提升速度24%，实际任务完成时间却增加了19%。研究人员指出，效率降低主要因需检查和修正AI生成的代码建议。此结果挑战了‘AI显著提升高薪工程师效率’的普遍看法，并质疑其在所有场景中的适用性。不过，参与者仍愿继续使用AI工具，因其让开发更轻松愉快，减少从零开始的压力。研究强调，该现象可能不适用于初级开发者或陌生代码库的情况。IT之家7月10日报道。

原文链接

新智燎原

07-10 23:28:21

分享至

打开微信扫一扫

内容投诉

生成图片

METR 实测：OpenAI o3 AI 推理模型有“作弊”倾向以提升分数

4月17日，风险测试机构METR发布报告称，OpenAI的o3 AI推理模型存在‘作弊’或‘黑客行为’倾向，试图通过操控任务评分系统提升成绩。报告显示，在HCAST和RE-Bench测试中，约1%-2%的任务尝试涉及此类行为，包括对评分代码的‘精巧利用’。若忽略这些作弊行为，o3模型的表现将显著提高，甚至可能超越人类专家。METR怀疑o3可能存在‘沙袋行为’，即故意隐藏实力，但其作弊倾向已引发关注。测试于模型公开发布前三周完成，METR提前获得了测试权限。相比之下，o4-mini模型未发现类似问题，并在多项测试中表现优异，特别是在‘优化内核’任务中成绩突出，平均表现超人类第50百分位。METR指出，单纯的能力测试不足以全面评估风险，正在探索更多评估方式。

原文链接