OpenAI 推出 SWE-bench Verified 基准，更准确评估 AI 模型代码生成表现

2024-08-16 06:20:55

数码游侠

发布在

快讯

阅读：1810

OpenAI公司于8月13日发布新闻稿，宣布推出SWE-bench Verified基准，以更精确地评估AI模型在代码生成任务中的表现。SWE-bench是一个用于评估大型语言模型（LLM）解决GitHub上实际软件问题能力的数据集，包含来自12个流行Python仓库的2294个Issue-Pull Request对。然而，原版SWE-bench存在三个主要问题：单元测试过于严格、问题描述不清晰及开发环境设置困难。SWE-bench Verified通过引入容器化Docker环境，解决了这些问题，提高了评估过程的一致性和可靠性。结果显示，GPT-4在新基准上解决问题的比例显著提升至33.2%，而最佳开源代理框架Agentless的得分则从之前的8%增加到16%，这表明SWE-bench Verified更全面地评估了AI模型在软件工程任务中的实际能力。

原文链接

本文链接：https://kx.umi6.com/article/5048.html

转载请注明文章出处

AI模型代码生成