正文:2025年8月19日,中科院、清华大学等联合提出创新的自进化框架SE-Agent,在SWE-Bench Verified基准上刷新开源框架纪录,取得80%的Top-1 Resolution Rate。SE-Agent通过修订、重组与精炼智能体的思考过程,突破传统方法的局限,显著提升复杂推理能力。在多种模型测试中表现优异,Claude-3.7-Sonnet首次尝试成功率提升至61.2%,开源模型如DeepSeek-V3、Qwen-2.5-72B等均有显著性能增长。其核心优势包括跨轨迹协同智能、高效进化收敛及模型无关的即插即用特性。研究团队计划将该技术扩展至强化学习等领域,并已开源代码供进一步研究。
原文链接
本文链接:https://kx.umi6.com/article/23825.html
转载请注明文章出处
相关推荐
换一换
OpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的
2025-08-12 13:18:21
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
2025-09-04 16:02:51
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
OpenAI 推出 SWE-bench Verified 基准,更准确评估 AI 模型代码生成表现
2024-08-16 06:20:55
Mistral 推出 Devstral 2 模型家族,宣称表现在开源编程智能体中一流
2025-12-10 15:56:14
突破Claude-4编程上限!自进化Agent框架拿下新SOTA,已开源
2025-08-19 18:02:54
甲骨文史上最大裁员:AI未取代人力 资金转向芯片、数据中心投资
2026-03-09 18:00:21
AI短剧《霍去病》走红!导演澄清制作细节:3000元仅算力成本
2026-03-08 17:25:18
最高法:打击滥用AI换脸等行为 斩断为电诈提供“技术助攻”的链条
2026-03-09 15:54:50
美国国防部官员称目前未与Anthropic进行任何实质性谈判
2026-03-06 11:57:53
龙虾上桌!上市公司抢着养 OpenClaw引爆科技圈
2026-03-09 18:01:30
AI将胜任80%岗位!亿万富翁:如今5岁儿童成年后将无需再为生存而工作
2026-03-06 15:12:02
AI出错为何不用承担责任!最高法厘清法律责任边界
2026-03-09 18:02:29
664 文章
472576 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18