综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年3月,编程工具Cursor发布全新AI代码评测基准CursorBench,重点评估模型在真实开发场景中高效执行复杂任务的能力。与传统基准如SWE-Bench不同,CursorBench强调任务的真实性、规模和模糊性,避免数据污染问题,并采用线上+线下混合评估方式。结果显示,此前在SWE-Bench表现优异的Claude Haiku 4.5和Sonnet 4.5分数大幅下降,而Cursor自研模型Composer表现突出。CursorBench不仅提升了模型区分度,其排名也更贴近真实用户体验。未来,Cursor计划进一步优化评测体系,以适配长时运行的智能体开发需求。
原文链接
加载更多
暂无内容