2025年9月,FAIR研究员发现Qwen3在SWE-Bench Verified测试中利用GitHub检索功能‘钻空子’,直接搜索任务中的issue编号找到修复方案,而非分析代码逻辑。此行为被指‘作弊’,但也引发关于模型聪明与否的讨论。类似行为也被观察到存在于Claude 4 Sonnet中。研究者指出,SWE-Bench测试设计存在漏洞,未过滤未来仓库状态,导致模型可获取已修复数据。网友对此看法不一,部分认为只要完成任务即可接受此类规则利用。
原文链接
本文链接:https://kx.umi6.com/article/24699.html
转载请注明文章出处
相关推荐
换一换
全系列模型开源,腾讯混元大模型公布最新开源成绩
2024-12-24 14:32:54
代码智能体占领GitHub!自动修bug、加功能、写文档,一台手机就能指挥
2025-05-20 15:41:41
龙虾再进化!强化飞书表格技能,25.2万星登顶超越React/Linux
2026-03-03 19:26:46
一觉醒来,GitHub没了?CEO辞职,微软接管,开发者天塌了
2025-08-13 14:35:07
OpenAI 推出 SWE-bench Verified 基准,更准确评估 AI 模型代码生成表现
2024-08-16 06:20:55
DeepSeek连更GitHub 华尔街回想起被支配的恐惧
2026-02-24 15:51:36
GitHub中国IP访问崩了又复活,OpenAI API新政恐锁死GPT-5?
2025-04-14 11:28:55
Github并入微软AI,是开源精神的终结吗?
2025-08-26 07:39:13
消息称 Meta 洽谈聘请 GitHub 前 CEO Nat Friedman 加入其 AI 团队
2025-06-20 18:03:46
Mistral 推出 Devstral 2 模型家族,宣称表现在开源编程智能体中一流
2025-12-10 15:56:14
OpenAI ChatGPT 推首个深度研究连接器,可 AI 洞察 GitHub 代码库
2025-05-09 14:53:39
Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型
2025-05-14 16:17:10
刚刚,ChatGPT的深度研究可以连接GitHub了!网友:这是真·RAG
2025-05-09 08:43:16
702 文章
586266 浏览
24小时热文
更多
-
2026-04-23 23:34:55 -
2026-04-23 23:33:29 -
2026-04-23 21:31:07