OpenAI公司于8月13日发布新闻稿,宣布推出SWE-bench Verified基准,以更精确地评估AI模型在代码生成任务中的表现。SWE-bench是一个用于评估大型语言模型(LLM)解决GitHub上实际软件问题能力的数据集,包含来自12个流行Python仓库的2294个Issue-Pull Request对。然而,原版SWE-bench存在三个主要问题:单元测试过于严格、问题描述不清晰及开发环境设置困难。SWE-bench Verified通过引入容器化Docker环境,解决了这些问题,提高了评估过程的一致性和可靠性。结果显示,GPT-4在新基准上解决问题的比例显著提升至33.2%,而最佳开源代理框架Agentless的得分则从之前的8%增加到16%,这表明SWE-bench Verified更全面地评估了AI模型在软件工程任务中的实际能力。
原文链接
本文链接:https://kx.umi6.com/article/5048.html
转载请注明文章出处
相关推荐
换一换
汇丰:预计OpenAI到2030年仍难以盈利
2025-11-27 19:53:15
OpenAI CFO 澄清“政府背书”表达:未寻求让美国政府提供担保
2025-11-06 17:05:57
剑指全球最大订阅服务!OpenAI预计:ChatGPT五年内付费用户将达2.2亿
2025-11-26 14:47:40
孙正义再次清仓英伟达!上一次教训“价值2500亿美元”
2025-11-12 17:13:01
奥特曼谈OpenAI首款AI硬件:我想拿起它咬一口
2025-11-25 10:43:52
Nano Banana,OpenAI你学不会
2025-11-24 17:05:42
最新测试版 App 代码显示,ChatGPT 未来或引入广告
2025-11-29 23:44:48
加量不加价:OpenAI 最强编程 AI 模型 API 开放,连续写代码可超 24 小时
2025-12-05 14:33:49
Sora APP 30天留存率:1%
2025-12-04 19:38:22
坦白从宽:OpenAI 开发新系统教导模型诚实承认自身“不良行为”
2025-12-04 17:36:30
SemiAnalysis:OpenAI“筹备采用谷歌TPU”导致英伟达让步 其算力集群成本降低约30%
2025-12-01 10:00:34
Intuit 与 OpenAI 达成 1 亿美元合作,让 ChatGPT 算退税、管财务
2025-11-18 22:41:13
奥尔特曼摊牌:OpenAI 未来 8 年豪掷 1.4 万亿美元建数据中心,将推 AI 云挑战亚马逊、谷歌
2025-11-10 12:11:14
572 文章
350830 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57