2026年3月,编程工具Cursor发布全新AI代码评测基准CursorBench,重点评估模型在真实开发场景中高效执行复杂任务的能力。与传统基准如SWE-Bench不同,CursorBench强调任务的真实性、规模和模糊性,避免数据污染问题,并采用线上+线下混合评估方式。结果显示,此前在SWE-Bench表现优异的Claude Haiku 4.5和Sonnet 4.5分数大幅下降,而Cursor自研模型Composer表现突出。CursorBench不仅提升了模型区分度,其排名也更贴近真实用户体验。未来,Cursor计划进一步优化评测体系,以适配长时运行的智能体开发需求。
原文链接
本文链接:https://kx.umi6.com/article/33733.html
转载请注明文章出处
相关推荐
换一换
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude
2026-03-14 14:59:22
老黄唱衰编程,GitHub CEO硬刚:放弃写代码等于放弃智能体话语权
2025-05-19 19:21:32
中信证券:AI Coding应用落地第一站 编程智能体打开千亿空间
2025-12-10 09:38:44
京东方AWE 2026首展AI+AR骑行运动眼镜 预计6月与车厂联合发布
2026-03-12 15:48:43
《智能家居产业标准化工作路线图》发布
2026-03-12 15:49:48
刚刚,腾讯电脑“龙虾管家”重磅上线
2026-03-13 19:38:36
格力电器:碳化硅功率芯片首秀AWE 2026,自研EAI、MCU等芯片累计出货已达2亿颗
2026-03-12 12:40:06
马斯克:“数字擎天柱”将应用于所有AI4汽车
2026-03-13 08:58:12
量子位专访陶哲轩:我为什么现在创办一个AI x Science组织
2026-03-14 15:00:36
腾讯龙虾数据安全保护Skill上架ClawHub
2026-03-12 08:18:21
OpenClaw会疯狂扣钱吗?腾讯云回应
2026-03-11 20:35:03
独家|百度健康已启动内测医生版“龙虾”
2026-03-13 11:05:52
海信视像科技总裁李炜:家庭陪伴机器人产品很快可以进入消费者使用场景
2026-03-14 10:46:28
663 文章
493162 浏览
24小时热文
更多
-
2026-03-14 16:12:06 -
2026-03-14 16:10:59 -
2026-03-14 16:09:51