1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

OpenAI公司于8月13日发布新闻稿,宣布推出SWE-bench Verified基准,以更精确地评估AI模型在代码生成任务中的表现。SWE-bench是一个用于评估大型语言模型(LLM)解决GitHub上实际软件问题能力的数据集,包含来自12个流行Python仓库的2294个Issue-Pull Request对。然而,原版SWE-bench存在三个主要问题:单元测试过于严格、问题描述不清晰及开发环境设置困难。SWE-bench Verified通过引入容器化Docker环境,解决了这些问题,提高了评估过程的一致性和可靠性。结果显示,GPT-4在新基准上解决问题的比例显著提升至33.2%,而最佳开源代理框架Agentless的得分则从之前的8%增加到16%,这表明SWE-bench Verified更全面地评估了AI模型在软件工程任务中的实际能力。

原文链接
本文链接:https://kx.umi6.com/article/5048.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
2026-03-06 09:42:29
诺和诺德宣布与OpenAI建立战略合作伙伴关系
2026-04-14 15:05:51
豪掷200亿美元 OpenAI据称将与芯片新贵Cerebras达成重磅协议
2026-04-17 15:10:16
报告:Anthropic企业采用率首超OpenAI
2026-05-14 13:40:50
中信证券:合纵连横PE巨头 OpenAI与Anthropic加速布局企业级AI市场
2026-05-15 08:31:57
OpenAI就第三方库安全事件发布公告:未发现用户数据泄露或系统遭入侵
2026-04-11 09:56:17
OpenAI宣布以7300亿美元的估值获得1100亿美元新投资
2026-02-27 22:17:29
OpenAI向部分用户发布Cyber模型 与Mythos展开竞争
2026-04-15 05:40:45
OpenAI的Codex登陆亚马逊Bedrock平台
2026-04-29 02:54:02
Sora负责人离职
2026-04-18 07:48:11
截至上月末 OpenAI年化收入突破250亿美元
2026-03-05 12:14:25
投资人不买账 OpenAI估值8520亿美元遭质疑:战略转向引发争议
2026-04-15 06:41:58
OpenAI智能体手机冲击明年量产 目标两年出货3000万部
2026-05-06 16:27:18
24小时热文
更多
扫一扫体验小程序