标题:Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍
AI智能体也有了自己的“摩尔定律”。Nature报道了非营利研究机构METR的一项新发现:AI在完成长期任务上的进步速度惊人,时间跨度大约每七个月翻一番。
为了衡量AI完成任务的能力变化,研究人员提出了“50%-任务完成时间跨度”这一指标,即AI在50%成功率下完成任务所需的平均时间长度。例如,假设2019年AI达到50%成功率所需时间为人类10分钟,则7个月后这一时间变为20分钟。
2024年,这一增长速度加快至每三个月翻一番。预计五年内,AI将能自动完成人类需一个月才能完成的任务。
研究团队选择了97个HCAST任务、7个RE-Bench任务和66个SWAA任务来评估AI模型能力,涵盖了从几秒到几十小时的多样任务。同时,他们招募了800多名专业人士完成这些任务并记录时间,以此作为衡量任务难度的标准。
通过对13个前沿AI模型在这些任务上的表现进行逻辑回归分析,团队得出“50%-任务完成时间跨度”的数据,并绘制出模型自主性随时间指数增长的图表。结果显示,自2019年以来,AI模型的时间跨度每七个月翻一番。
此外,研究通过多个外部验证进一步证实了这一趋势。例如,在更具“混乱”特性的任务中,尽管AI的绝对性能较低,但其提升速度与普通任务一致。
按照预测,AI可能在2028年11月达到一个月的任务时间跨度,保守估计为2031年2月。尽管研究仍有局限性,但团队确信AI能力每年增长1~4倍。这一发现预示着智能体的快速发展。
论文链接:https://arxiv.org/pdf/2503.14499
原文链接
本文链接:https://kx.umi6.com/article/15904.html
转载请注明文章出处
相关推荐
换一换
AI智能体时代的商业逻辑变革
2025-05-07 12:14:00
全球最佳编程 AI 模型:Claude Sonnet 4.5 登场,自主写代码超 30 小时、更像“一位同事”
2025-09-30 08:22:36
排队几万人 这个“小圆脸”咋就从X火到朋友圈
2025-05-16 14:44:59
全球首个 AI 智能体安全测试标准发布,蚂蚁集团、清华大学、中国电信等联合编制
2025-07-14 19:25:10
AI智能体,为什么看不懂?
2025-07-23 08:47:20
我国首个软件开发 AI 智能体标准发布,20 余家巨头联手参编
2025-05-27 14:50:02
芯片之外,中美AI拼的是能源
2025-07-08 13:44:08
宝马中国将接入DeepSeek!爆新世代车型搭载AI智能体
2025-04-27 14:16:44
Anthropic 定制 Claude 智能体“Claudius”频繁被员工骗钱:幻觉中坚信自己是人,还试图向 FBI 举报公司
2025-11-21 13:18:55
AI智能体独立搞科研:2.5个月找到新疗法 填补人类盲区
2025-05-25 13:11:51
Gartner 预测:市场冷静后,2027 年底超 40% 智能体(代理)AI 项目将被取消
2025-06-26 15:24:13
微软联手谷歌力推 A2A 开放协议,AI 智能体实现跨云跨平台无缝协作
2025-05-08 15:30:48
Meta宣布收购AI智能体公司Manus 为Meta成立以来第三大收购
2025-12-30 07:08:01
678 文章
458678 浏览
24小时热文
更多
-
2026-01-10 16:23:20 -
2026-01-10 16:22:15 -
2026-01-10 16:21:09