正文:2025年8月19日,中科院、清华大学等联合提出创新的自进化框架SE-Agent,在SWE-Bench Verified基准上刷新开源框架纪录,取得80%的Top-1 Resolution Rate。SE-Agent通过修订、重组与精炼智能体的思考过程,突破传统方法的局限,显著提升复杂推理能力。在多种模型测试中表现优异,Claude-3.7-Sonnet首次尝试成功率提升至61.2%,开源模型如DeepSeek-V3、Qwen-2.5-72B等均有显著性能增长。其核心优势包括跨轨迹协同智能、高效进化收敛及模型无关的即插即用特性。研究团队计划将该技术扩展至强化学习等领域,并已开源代码供进一步研究。
原文链接
本文链接:https://kx.umi6.com/article/23825.html
转载请注明文章出处
相关推荐
换一换
Mistral 推出 Devstral 2 模型家族,宣称表现在开源编程智能体中一流
2025-12-10 15:56:14
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
2025-09-04 16:02:51
OpenAI GPT-5 编程成绩有猫腻:自删 23 道测试题,关键基准还是自己提的
2025-08-12 13:18:21
OpenAI 推出 SWE-bench Verified 基准,更准确评估 AI 模型代码生成表现
2024-08-16 06:20:55
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
西湖大学张驰团队:从视觉合成到空间理解,视频 AI 正在「转向」丨CVPR 2026
2026-04-22 15:15:46
刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢
2026-04-24 05:49:31
上交大 x vivo 团队:一个简单改动,让 diffusion 全面提升丨CVPR 2026
2026-04-22 15:21:45
十五部门:夯实适宜青年创新的产业基础 创造更多有利于青年创新创造、实现价值的职业机会
2026-04-22 12:04:29
黄仁勋回应N卡抢钱:我牛贵 但我下的奶便宜啊!
2026-04-22 13:07:12
Anthropic二级市场估值升至万亿美元 超越OpenAI
2026-04-23 14:11:46
寒武纪回应代工产能保障:与供应链上下游长期合作 并做好各项应对工作
2026-04-22 15:26:13
特斯拉开源硬件,中国公司回应来了:直接把机器人大脑开源了
2026-04-23 09:57:38
696 文章
560041 浏览
24小时热文
更多
-
2026-04-24 08:00:05 -
2026-04-24 06:56:46 -
2026-04-24 06:55:41