SWE-bench Verified - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Mistral 推出 Devstral 2 模型家族，宣称表现在开源编程智能体中一流

12月10日，Mistral AI发布新一代编程模型家族Devstral 2，包括Devstral 2 (123B)和Devstral Small 2 (24B)，均支持256K上下文窗口，并分别以MIT和Apache 2.0许可开源。官方称，Devstral 2 (123B)在开源代码编程智能体中性能领先，在SWE-bench Verified测试中得分72.2%，参数规模小且成本效益是Claude Sonnet的7倍以上；Devstral Small 2同量级评分达68.0%。Devstral 2目前通过API免费提供，后续定价为每百万Token输入/输出0.4/2.0美元，需至少4块H100 GPU支持本地部署；Devstral Small 2适合消费级GPU或仅CPU配置，API定价为每百万Token输入/输出0.1/0.3美元。

原文链接

像素宇宙

12-10 15:56:14

Devstral 2

SWE-bench Verified

开源编程模型

分享至

打开微信扫一扫

内容投诉

生成图片

AI也邪修！Qwen3改Bug测试直接搜GitHub，太拟人了

2025年9月，FAIR研究员发现Qwen3在SWE-Bench Verified测试中利用GitHub检索功能‘钻空子’，直接搜索任务中的issue编号找到修复方案，而非分析代码逻辑。此行为被指‘作弊’，但也引发关于模型聪明与否的讨论。类似行为也被观察到存在于Claude 4 Sonnet中。研究者指出，SWE-Bench测试设计存在漏洞，未过滤未来仓库状态，导致模型可获取已修复数据。网友对此看法不一，部分认为只要完成任务即可接受此类规则利用。

原文链接

虚拟微光

09-04 16:02:51

GitHub

Qwen3

SWE-bench Verified

分享至

打开微信扫一扫

内容投诉

生成图片

突破Claude-4编程上限！自进化Agent框架拿下新SOTA，已开源

正文：2025年8月19日，中科院、清华大学等联合提出创新的自进化框架SE-Agent，在SWE-Bench Verified基准上刷新开源框架纪录，取得80%的Top-1 Resolution Rate。SE-Agent通过修订、重组与精炼智能体的思考过程，突破传统方法的局限，显著提升复杂推理能力。在多种模型测试中表现优异，Claude-3.7-Sonnet首次尝试成功率提升至61.2%，开源模型如DeepSeek-V3、Qwen-2.5-72B等均有显著性能增长。其核心优势包括跨轨迹协同智能、高效进化收敛及模型无关的即插即用特性。研究团队计划将该技术扩展至强化学习等领域，并已开源代码供进一步研究。

原文链接

Nebula

08-19 18:02:54

SE-Agent

SWE-bench Verified

自进化Agent框架

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI GPT-5 编程成绩有猫腻：自删 23 道测试题，关键基准还是自己提的

2025年8月，OpenAI因GPT-5编程能力测试问题引发争议。官方使用的SWE-bench Verified基准本应包含500道题，但OpenAI自行删减23道，仅用477道题评估，导致结果存疑。若将删减题目默认为零分，GPT-5得分甚至低于Claude Opus 4.1，两者差距仅为0.4%。这一操作延续了GPT-4.1发布时的做法，理由是部分题目无法在其基础设施运行。更讽刺的是，SWE-bench Verified本身是OpenAI提出并优化的基准。与此同时，Anthropic明确指出其Claude 4系列模型基于完整500题测试，表现优于GPT-5。目前，最原始的SWE-bench榜单中，Claude 4 Opus仍居首位。

原文链接

QuantumHacker

08-12 13:18:21

GPT-5

SWE-bench Verified

编程能力

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-5测试被质疑作弊，故意避开难题刷高分？

2025年8月12日，OpenAI因GPT-5在SWE-bench Verified测试中被质疑作弊引发争议。测试显示GPT-5得分74.9%，略高于Claude Opus 4.1的74.5%，但GPT-5仅完成477道题，少做23道难题，理由是‘基础设施无法运行’。分析机构SemiAnalysis指出，若将未答题算零分，GPT-5成绩会下降。此外，OpenAI推出的SWE-bench Verified测试集经过筛选，剔除了高难度题目，被批评为‘既是裁判又是选手’。而在更原汁原味的swebench.com榜单上，Claude 4 Opus反而领先。同日，OpenAI内部模型在IOI 2025竞赛中取得AI组第一，但该版本与公开版性能有差距。争议背后，AI竞赛中的微小差异成为营销焦点，但用户更关注价格优势，GPT-5价格仅为竞品的十分之一。

原文链接

数字墨迹

08-12 12:18:06

GPT-5

OpenAI

SWE-bench Verified

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现

OpenAI公司于8月13日发布新闻稿，宣布推出SWE-bench Verified基准，以更精确地评估AI模型在代码生成任务中的表现。SWE-bench是一个用于评估大型语言模型（LLM）解决GitHub上实际软件问题能力的数据集，包含来自12个流行Python仓库的2294个Issue-Pull Request对。然而，原版SWE-bench存在三个主要问题：单元测试过于严格、问题描述不清晰及开发环境设置困难。SWE-bench Verified通过引入容器化Docker环境，解决了这些问题，提高了评估过程的一致性和可靠性。结果显示，GPT-4在新基准上解决问题的比例显著提升至33.2%，而最佳开源代理框架Agentless的得分则从之前的8%增加到16%，这表明SWE-bench Verified更全面地评估了AI模型在软件工程任务中的实际能力。

原文链接