正文:2025年8月19日,中科院、清华大学等联合提出创新的自进化框架SE-Agent,在SWE-Bench Verified基准上刷新开源框架纪录,取得80%的Top-1 Resolution Rate。SE-Agent通过修订、重组与精炼智能体的思考过程,突破传统方法的局限,显著提升复杂推理能力。在多种模型测试中表现优异,Claude-3.7-Sonnet首次尝试成功率提升至61.2%,开源模型如DeepSeek-V3、Qwen-2.5-72B等均有显著性能增长。其核心优势包括跨轨迹协同智能、高效进化收敛及模型无关的即插即用特性。研究团队计划将该技术扩展至强化学习等领域,并已开源代码供进一步研究。
原文链接
本文链接:https://kx.umi6.com/article/23825.html
转载请注明文章出处
相关推荐
换一换
突破Claude-4编程上限!自进化Agent框架拿下新SOTA,已开源
2025-08-19 18:02:54
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
2025-09-04 16:02:51
OpenAI 推出 SWE-bench Verified 基准,更准确评估 AI 模型代码生成表现
2024-08-16 06:20:55
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
OpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的
2025-08-12 13:18:21
华为面向医疗领域发布 AI 数据平台,涵盖知识生成与检索等
2025-12-07 18:40:26
陕西“十五五”规划建议:组建陕西人工智能产业联盟 打造西部人工智能发展高地
2025-12-08 09:18:51
机构:2026年全球800G以上光收发模块达近6300万组
2025-12-08 17:39:25
微软终于听劝一次!Windows 11右键菜单AI操作可彻底移除
2025-12-08 12:28:38
科创引领新经济 数智驱动新发展——2025东方财富私募风云际会论坛盛大召开
2025-12-08 15:32:36
Gartner 调查:仅 20% 客服支持主管表示因 AI 削减团队规模
2025-12-08 14:31:10
美的“美罗 U”首曝,行业首创六臂轮足式人形机器人
2025-12-07 15:33:32
用AI图仅退款,这批羊毛党把商家薅麻了
2025-12-08 12:24:10
593 文章
353847 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57