1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

OpenAI公司于8月13日发布新闻稿,宣布推出SWE-bench Verified基准,以更精确地评估AI模型在代码生成任务中的表现。SWE-bench是一个用于评估大型语言模型(LLM)解决GitHub上实际软件问题能力的数据集,包含来自12个流行Python仓库的2294个Issue-Pull Request对。然而,原版SWE-bench存在三个主要问题:单元测试过于严格、问题描述不清晰及开发环境设置困难。SWE-bench Verified通过引入容器化Docker环境,解决了这些问题,提高了评估过程的一致性和可靠性。结果显示,GPT-4在新基准上解决问题的比例显著提升至33.2%,而最佳开源代理框架Agentless的得分则从之前的8%增加到16%,这表明SWE-bench Verified更全面地评估了AI模型在软件工程任务中的实际能力。

原文链接
本文链接:https://kx.umi6.com/article/5048.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI原研究副总裁回归
2026-01-15 10:32:13
三个和尚没水喝!OpenAI星际之门搁浅,一年过去压根没动工
2026-02-23 15:34:57
马斯克向OpenAI和微软索赔最高达1340亿美元
2026-01-18 15:28:06
亚马逊据悉正在商谈向OpenAI投资高达500亿美元并扩大合作关系
2026-01-30 09:18:25
OpenAI试水广告业务 定价对标高端资源
2026-01-26 23:41:21
OpenAI或为亚马逊AI产品开发定制化模型
2026-02-04 22:10:24
消息称 OpenAI 要求外包人员上传真实工作成果,律师警告称风险极高
2026-01-12 09:24:27
黄仁勋否认对OpenAI不满 透露将巨额投资
2026-02-01 19:56:16
软银集团4-12月净利润增至5倍 创历史同期新高
2026-02-12 16:32:10
清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入
2026-02-25 13:18:07
OpenAI 新功能曝光:代号“奏鸣曲”,猜测与 ChatGPT 音频体验有关
2026-01-19 19:09:37
OpenAI战略大转舵 全速冲刺ChatGPT商业化
2026-02-03 13:39:40
消息称 OpenAI 考虑为 ChatGPT 内部版投放广告,收益存疑
2026-01-07 20:37:09
24小时热文
更多
扫一扫体验小程序