1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

OpenAI公司于8月13日发布新闻稿,宣布推出SWE-bench Verified基准,以更精确地评估AI模型在代码生成任务中的表现。SWE-bench是一个用于评估大型语言模型(LLM)解决GitHub上实际软件问题能力的数据集,包含来自12个流行Python仓库的2294个Issue-Pull Request对。然而,原版SWE-bench存在三个主要问题:单元测试过于严格、问题描述不清晰及开发环境设置困难。SWE-bench Verified通过引入容器化Docker环境,解决了这些问题,提高了评估过程的一致性和可靠性。结果显示,GPT-4在新基准上解决问题的比例显著提升至33.2%,而最佳开源代理框架Agentless的得分则从之前的8%增加到16%,这表明SWE-bench Verified更全面地评估了AI模型在软件工程任务中的实际能力。

原文链接
本文链接:https://kx.umi6.com/article/5048.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 升级 ChatGPT AI 助理,优先保护未成年人安全
2025-12-19 08:37:19
GPT-5.2 提前泄露?线索显示其已“超越 Gemini 3”
2025-12-11 16:00:08
谷歌 Gemini 3 反击战:OpenAI GPT-5.2 被曝提前至下周发布,从新功能转向速度与稳定性提升
2025-12-06 09:19:14
DeepMind CEO:对OpenAI引入广告感到惊讶 Gemini目前没这种计划
2026-01-23 15:00:51
OpenAI ChatGPT 将引入广告“供养”AGI,奥尔特曼承诺不干扰 AI 答案生成
2026-01-17 10:22:14
姚班传奇陈立杰入职OpenAI!16岁保送清华,30岁拿下UC伯克利助理教授
2026-01-15 15:40:32
OpenAI:将自行承担“星际之门”项目能源费用
2026-01-21 12:08:12
OpenAI合作项目驱动对AI领军企业多年期业绩预期的上调
2025-12-15 21:00:57
OpenAI 首席研究官爆料:奥尔特曼曾不止一次拉响“红色警报”
2025-12-19 16:59:39
OpenAI 上新“圣诞版 Codex”,程序员假期变代码马拉松
2025-12-26 14:41:14
OpenAI 深夜炸场:GPT-5.2 模型发布,做表格 / PPT、处理超长上下文是专长
2025-12-12 03:25:42
硬刚谷歌 Nano Banana 模型:OpenAI 被曝正测试代号榛子 / 栗子两款生图 AI
2025-12-10 10:40:35
OpenAI CFO称公司2025年年化收入已突破200亿美元
2026-01-20 10:01:28
24小时热文
更多
扫一扫体验小程序