AI Coding评测基准

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

拜拜了SWE-Bench！Cursor刚发了个AI Coding评测基准，难哭Claude

2026年3月，编程工具Cursor发布全新AI代码评测基准CursorBench，重点评估模型在真实开发场景中高效执行复杂任务的能力。与传统基准如SWE-Bench不同，CursorBench强调任务的真实性、规模和模糊性，避免数据污染问题，并采用线上+线下混合评估方式。结果显示，此前在SWE-Bench表现优异的Claude Haiku 4.5和Sonnet 4.5分数大幅下降，而Cursor自研模型Composer表现突出。CursorBench不仅提升了模型区分度，其排名也更贴近真实用户体验。未来，Cursor计划进一步优化评测体系，以适配长时运行的智能体开发需求。

原文链接