拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

2026-03-14 14:59:22

QuantumHacker

发布在

快讯

阅读：1376

2026年3月，编程工具Cursor发布全新AI代码评测基准CursorBench，重点评估模型在真实开发场景中高效执行复杂任务的能力。与传统基准如SWE-Bench不同，CursorBench强调任务的真实性、规模和模糊性，避免数据污染问题，并采用线上+线下混合评估方式。结果显示，此前在SWE-Bench表现优异的Claude Haiku 4.5和Sonnet 4.5分数大幅下降，而Cursor自研模型Composer表现突出。CursorBench不仅提升了模型区分度，其排名也更贴近真实用户体验。未来，Cursor计划进一步优化评测体系，以适配长时运行的智能体开发需求。

原文链接

本文链接：https://kx.umi6.com/article/33733.html

转载请注明文章出处

AI Coding评测基准