1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

OpenAI公司于8月13日发布新闻稿,宣布推出SWE-bench Verified基准,以更精确地评估AI模型在代码生成任务中的表现。SWE-bench是一个用于评估大型语言模型(LLM)解决GitHub上实际软件问题能力的数据集,包含来自12个流行Python仓库的2294个Issue-Pull Request对。然而,原版SWE-bench存在三个主要问题:单元测试过于严格、问题描述不清晰及开发环境设置困难。SWE-bench Verified通过引入容器化Docker环境,解决了这些问题,提高了评估过程的一致性和可靠性。结果显示,GPT-4在新基准上解决问题的比例显著提升至33.2%,而最佳开源代理框架Agentless的得分则从之前的8%增加到16%,这表明SWE-bench Verified更全面地评估了AI模型在软件工程任务中的实际能力。

原文链接
本文链接:https://kx.umi6.com/article/5048.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
清华数学系大神跳槽OpenAI!曾主导SAM与Llama开发,Sora负责人:欢迎加入
2026-02-25 13:18:07
黄仁勋否认对OpenAI不满 透露将巨额投资
2026-02-01 19:56:16
OpenAI推出Prism 可用于撰写论文和协作研究
2026-01-28 10:18:55
OpenAI:GPT-5.2/Codex模型的速度现已提升40%
2026-02-04 13:45:40
算力越高收入越多!OpenAI率先验证AI商业Scaling Law
2026-01-20 11:02:06
OpenAI疯狂挖苹果墙角 苹果砸重金留人防跳槽
2026-03-27 20:18:27
OpenAI据悉拟在ChatGPT中接入视频生成工具Sora
2026-03-11 16:17:18
又一个谷歌不作恶式的形象崩塌 OpenAI删除AI安全造福人类承诺
2026-02-14 22:47:09
OpenAI拟运用AI助力药企研发并从中获利
2026-02-04 08:29:27
OpenAI CFO称公司2025年年化收入已突破200亿美元
2026-01-20 10:01:28
ChatGPT强行上马广告,因为OpenAI真的很烧钱
2026-01-19 16:01:57
OpenAI首席信息安全官宣布将离职
2026-01-27 14:22:25
OpenAI据悉考虑与北约签订合同
2026-03-04 14:47:17
24小时热文
更多
扫一扫体验小程序