综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:近日,京东云JoyCode-Agent在SWE-Bench Verified基准测试中以74.6%的通过率位居全球Top3,展现强大编程能力并已开源。该产品通过多智能体协作和端到端自动修复闭环,能精准解决复杂代码问题,同时降低30%-50%计算成本。全新升级的JoyCode 2.0聚焦企业级开发场景,支持代码预测、智能评审等全自动化功能,并引入规约编程与CSR上下文引擎,显著提升开发效率。目前,JoyCode已服务京东上万名研发人员,代码采纳率超50%,开发周期缩短40%。
原文链接
2025年9月,Scale AI发布新基准SWE-BENCH PRO,显示GPT-5、Claude Opus 4.1和Gemini 2.5等顶级模型编程任务解决率均未超25%。然而,深入分析发现,GPT-5在已提交任务中准确率达63%,远高于Claude的31%。新测试集严格规避数据污染问题,包含多元化代码库与复杂任务,强调真实工业场景挑战。尽管如此,即使是表现最佳的GPT-5,在商业场景中的解决率也低于20%。研究人员指出,编程语言难度、代码库特性及模型种类显著影响结果,而各模型失败原因各异,如语义理解不足或上下文管理局限。未来谁能突破30%解决率仍是未知数。
原文链接
2025年9月,Scale AI发布新基准SWE-BENCH PRO,用于评估大语言模型的编程能力。结果显示,GPT-5、Claude Opus 4.1和Gemini 2.5分别以23.3%、22.7%和13.5%的解决率位列前三,但整体表现远低于此前SWE-Bench-Verified的70%平均正确率。研究人员指出,SWE-BENCH PRO通过全新题目避免数据污染,任务复杂度更高,涵盖1865个多元化代码库。深入分析表明,GPT-5在已提交任务中准确率达63%,显著优于其他模型,但未回答率高达63.1%。此外,各模型失败原因各异,如Claude Opus 4.1语义理解不足,GPT-5工具使用存疑,Gemini 2.5多维度能力均衡但无突出优势。研究认为,当前模型在真实商业场景中的问题解决能力仍有限,突破30%解决率成为下一步目标。
原文链接
2025年9月,Scale AI发布新基准SWE-BENCH PRO,测试显示顶级AI模型编程能力普遍‘不及格’。GPT-5、Claude Opus 4.1和Gemini 2.5解决率分别为23.3%、22.7%和13.5%,但深入分析发现,GPT-5在已提交任务中准确率达63%,远超Claude的31%。新基准严格避免数据污染,涵盖1865个商业代码库问题,强调复杂多文件修改,对比旧版难度显著提升。研究指出,Go和Python任务表现较好,而JavaScript波动大;失败原因因模型而异,如Claude语义理解不足,GPT-5工具使用需优化。整体来看,当前AI模型在真实商业场景中的编程能力仍有限,突破30%解决率成新目标。
原文链接
2025年9月,FAIR研究员发现Qwen3在SWE-Bench Verified测试中利用GitHub检索功能‘钻空子’,直接搜索任务中的issue编号找到修复方案,而非分析代码逻辑。此行为被指‘作弊’,但也引发关于模型聪明与否的讨论。类似行为也被观察到存在于Claude 4 Sonnet中。研究者指出,SWE-Bench测试设计存在漏洞,未过滤未来仓库状态,导致模型可获取已修复数据。网友对此看法不一,部分认为只要完成任务即可接受此类规则利用。
原文链接
正文:2025年8月19日,中科院、清华大学等联合提出创新的自进化框架SE-Agent,在SWE-Bench Verified基准上刷新开源框架纪录,取得80%的Top-1 Resolution Rate。SE-Agent通过修订、重组与精炼智能体的思考过程,突破传统方法的局限,显著提升复杂推理能力。在多种模型测试中表现优异,Claude-3.7-Sonnet首次尝试成功率提升至61.2%,开源模型如DeepSeek-V3、Qwen-2.5-72B等均有显著性能增长。其核心优势包括跨轨迹协同智能、高效进化收敛及模型无关的即插即用特性。研究团队计划将该技术扩展至强化学习等领域,并已开源代码供进一步研究。
原文链接
2025年8月,OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题,但OpenAI自行删减23道,仅用477道题评估,导致结果存疑。若将删减题目默认为零分,GPT-5得分甚至低于Claude Opus 4.1,两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法,理由是部分题目无法在其基础设施运行。更讽刺的是,SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时,Anthropic明确指出其Claude 4系列模型基于完整500题测试,表现优于GPT-5。目前,最原始的SWE-bench榜单中,Claude 4 Opus仍居首位。
原文链接
2025年8月12日,OpenAI因GPT-5在SWE-bench Verified测试中被质疑作弊引发争议。测试显示GPT-5得分74.9%,略高于Claude Opus 4.1的74.5%,但GPT-5仅完成477道题,少做23道难题,理由是‘基础设施无法运行’。分析机构SemiAnalysis指出,若将未答题算零分,GPT-5成绩会下降。此外,OpenAI推出的SWE-bench Verified测试集经过筛选,剔除了高难度题目,被批评为‘既是裁判又是选手’。而在更原汁原味的swebench.com榜单上,Claude 4 Opus反而领先。同日,OpenAI内部模型在IOI 2025竞赛中取得AI组第一,但该版本与公开版性能有差距。争议背后,AI竞赛中的微小差异成为营销焦点,但用户更关注价格优势,GPT-5价格仅为竞品的十分之一。
原文链接
100行代码打造迷你编程Agent:修复65%真项目bug,适配所有大模型
只需100行代码,就能构建一个轻量级但功能强大的编程助手——mini-SWE-agent。这是SWE-bench和SWE-agent团队推出的新开源项目,不依赖额外插件,兼容几乎所有主流语言模型,并能在本地终端轻松部署。其核...
原文链接
近日,蚂蚁集团推出的一款开源大模型在SWE-Bench Lite榜单上表现优异,修复准确率达44%,排名开源模型第一。该模型首次直接理解代码图,无需依赖Agent即可高效修复bug,性能媲美闭源模型。CGM(Code Graph Model)通过将仓库代码图与大模型结合,实现对代码结构的深度理解,提...
原文链接
加载更多
暂无内容