1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

OpenAI公司于8月13日发布新闻稿,宣布推出SWE-bench Verified基准,以更精确地评估AI模型在代码生成任务中的表现。SWE-bench是一个用于评估大型语言模型(LLM)解决GitHub上实际软件问题能力的数据集,包含来自12个流行Python仓库的2294个Issue-Pull Request对。然而,原版SWE-bench存在三个主要问题:单元测试过于严格、问题描述不清晰及开发环境设置困难。SWE-bench Verified通过引入容器化Docker环境,解决了这些问题,提高了评估过程的一致性和可靠性。结果显示,GPT-4在新基准上解决问题的比例显著提升至33.2%,而最佳开源代理框架Agentless的得分则从之前的8%增加到16%,这表明SWE-bench Verified更全面地评估了AI模型在软件工程任务中的实际能力。

原文链接
本文链接:https://kx.umi6.com/article/5048.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI拟在加拿大布局人工智能数据中心产能
2025-10-09 09:23:39
OpenAI 奥尔特曼拟用 Sora“变现”,借助 AI 生成视频来盈利
2025-10-04 11:59:56
黄仁勋回应AMD「送股」OpenAI
2025-10-11 09:32:20
消息称软银系深化与 OpenAI 合作,Arm 将为后者开发 CPU
2025-10-14 14:16:57
OpenAI:欧洲业务增长强劲 将继续加大投入
2025-10-24 00:18:56
进军聊天软件市场?曝 OpenAI 正测试 ChatGPT 私聊功能
2025-10-16 18:59:26
“O链”已然形成,英伟达也不过是其中一环
2025-10-11 13:29:17
韩国三星电子:将与OpenAI合作以迎合DRAM芯片需求激增
2025-10-01 18:50:48
国庆第一天,我被OpenAI的新App硬控了
2025-10-02 09:07:38
OpenAI 研究人员夸大 GPT-5 数学能力后删帖,遭杨立昆等业界人士批评
2025-10-19 08:45:17
AI 界“权力的游戏”:OpenAI 示警欧盟担忧苹果、谷歌等巨头阻碍 AI 创新
2025-10-11 09:53:29
与OpenAI达成巨额算力基建协议 AMD股价盘前暴涨超20%
2025-10-06 20:40:34
OpenAI 推出网页浏览器 Atlas 后,谷歌股价一度下跌 3%
2025-10-22 11:45:19
24小时热文
更多
扫一扫体验小程序