标题:Nature发文「智能体摩尔定律」,Agent能力每7个月翻倍
AI智能体也有了自己的“摩尔定律”。Nature报道了非营利研究机构METR的一项新发现:AI在完成长期任务上的进步速度惊人,时间跨度大约每七个月翻一番。
为了衡量AI完成任务的能力变化,研究人员提出了“50%-任务完成时间跨度”这一指标,即AI在50%成功率下完成任务所需的平均时间长度。例如,假设2019年AI达到50%成功率所需时间为人类10分钟,则7个月后这一时间变为20分钟。
2024年,这一增长速度加快至每三个月翻一番。预计五年内,AI将能自动完成人类需一个月才能完成的任务。
研究团队选择了97个HCAST任务、7个RE-Bench任务和66个SWAA任务来评估AI模型能力,涵盖了从几秒到几十小时的多样任务。同时,他们招募了800多名专业人士完成这些任务并记录时间,以此作为衡量任务难度的标准。
通过对13个前沿AI模型在这些任务上的表现进行逻辑回归分析,团队得出“50%-任务完成时间跨度”的数据,并绘制出模型自主性随时间指数增长的图表。结果显示,自2019年以来,AI模型的时间跨度每七个月翻一番。
此外,研究通过多个外部验证进一步证实了这一趋势。例如,在更具“混乱”特性的任务中,尽管AI的绝对性能较低,但其提升速度与普通任务一致。
按照预测,AI可能在2028年11月达到一个月的任务时间跨度,保守估计为2031年2月。尽管研究仍有局限性,但团队确信AI能力每年增长1~4倍。这一发现预示着智能体的快速发展。
论文链接:https://arxiv.org/pdf/2503.14499
原文链接
本文链接:https://kx.umi6.com/article/15904.html
转载请注明文章出处
相关推荐
换一换
Manus 回应裁员传闻:自身经营效率考量,调整部分业务团队
2025-07-08 23:54:12
谷歌推出托管 MCP 服务器,让 AI 智能体可直接接入其工具
2025-12-11 07:32:48
微软一夜50弹,纳德拉要建智能体伊甸园!0代码引发编程科研大地震
2025-05-21 15:06:59
Manus开放注册,迎来用户口碑大考
2025-05-13 11:49:47
热潮过后 Manus 宣布全面开放注册,用户每天可免费执行一项任务
2025-05-13 08:45:39
AI智能体上线,营销人下线? | AI无悖论
2025-06-14 15:37:24
亚马逊推出 Nova Act:可操控网页浏览器的 AI 智能体
2025-04-01 09:17:42
芯片之外,中美AI拼的是能源
2025-07-08 13:44:08
OpenAI推出语音模型全家桶:AI将说得更动情、听写更准确…
2025-03-21 11:23:36
OpenAI宣布推出AI Agent评测基准PaperBench
2025-04-03 08:09:43
得州大学奥斯汀分校开发新型 AI 智能体 Metamon:能像人一样玩宝可梦
2025-04-10 12:48:24
168 小时 AI 狂写 300 万行代码造出浏览器!Cursor 公开数百个智能体自主协作方案
2026-01-18 12:16:45
OpenAI 前瞻 ChatGPT 终极形态:迈步“App Store”时代,搭积木式创建 AI 智能体
2025-10-07 07:46:59
728 文章
534321 浏览
24小时热文
更多
-
2026-03-03 09:50:11 -
2026-03-03 09:49:12 -
2026-03-03 09:48:04