1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Auto Research时代,47个无标准答案任务成AI能力试金石

允中 发自 凹非寺
量子位 | 公众号 QbitAI

如果把AI丢进一个没有标准答案的工程现场,它还能胜任吗?长期以来,AI Agent看似无所不能,实则多依赖已知知识库“翻记忆”。然而,真实的工程世界并非如此:水下机器人的稳定性、动力电池的析锂边界、量子线路的噪声控制等问题没有满分答案,只有“更逼近极限的优化”。

近期,Einsia AI旗下Navers lab发布的Agent Benchmark——Frontier-Eng Bench,正式挑战了AI“做题家”的标签。研究团队没有让AI刷陈旧代码题,而是设计了一套完整的“工程闭环”:提出方案、接入仿真器、处理报错、调整参数、重新运行。在47个多学科交叉的硬核任务中,AI需像资深工程师一样,在功耗、安全、性能的“不可能三角”中寻找最优解。

这不仅是一个测试集,更是对AI“进化”的预演。当AI学会在反馈中自我修正,“人类提目标、AI迭代优化”的Auto Research时代可能比我们想象中更近。

AI开始干“硬活”了

过去的大模型更像是超级学霸,从海量数据中拼凑答案,本质上是“文字接龙”。而Frontier-Eng Bench让AI干起了“工程优化”的活儿:提出方案、跑实验、获取反馈、修改参数,再重跑,直到性能提升。这种闭环系统让AI脱离单纯的语义理解,开始像职业工程师那样在真实环境反馈中持续优化。

Frontier-Eng Bench的核心在于,它不测AI“答对没有”,而是测AI能否持续变强。以电池快充为例,目标简单——充得越快越好,但现实复杂:温度不能爆表、电压不能超速、电池寿命不能骤降。AI无法靠“刷题”通关,必须在长程反馈中展现进化耐力。

结果显示,GPT5.4表现最稳,但距离完全攻克Benchmark,AI还有很长的路要走。

Auto Research进入“迭代优化”时代

研究团队指出,真正高级的智能依赖长期反馈闭环。正如AlphaGo击败李世石靠的是海量模拟与即时反馈,而非死记棋谱。科研和工程优化同理,顶级成果来自不断假设、实验、修正、再尝试。

Frontier-Eng Bench首次系统性测试了AI的“迭代优化能力”,并总结出两条残酷规律:
1. 越往后,提升越难:改进频率和幅度均呈幂律衰减,初期快速突破,后期瓶颈难破。
2. 宽度有用,但深度不可或缺:并行多条线能避免卡壳,但预算固定时,深度被压缩,结构性跃迁需持续积累。

这提示下一代Agent发展方向:不是“一次出答案”的模型,而是能在长程反馈中持续迭代的系统。

AI工程师,可能真的要来了

这项研究的深远意义在于,它初步勾勒出一套接近真实工程循环的AI系统。未来,AI可能接入工业软件、仿真环境、CAD系统等,带来生产力剧变。人类研究员负责提出方向,AI负责“死磕路径”,24小时不停迭代。

Frontier-Eng Bench揭示的问题直指核心:当AI学会“长期优化”,它距离真正的工程智能还有多远?

论文题目:Frontier-Eng: Benchmarking Self-Evolving Agents on Real-World Engineering Tasks with Generative Optimization
项目主页:https://lab.einsia.ai/frontier-eng/
Arxiv: https://arxiv.org/abs/2604.12290
GitHub repo: https://github.com/EinsiaLab/Frontier-Engineering

原文链接
本文链接:https://kx.umi6.com/article/35766.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
广州:重点支持AI技术在智能无人系统、具身智能、细胞与基因、前沿新材料等领域的应用与融合发展
2026-05-11 16:25:50
国产开源模型包揽全球前十占八席 企业AI竞争转向数据治理
2026-05-11 18:22:15
韩国政策高层称人工智能公民红利将取自超额税收 而非企业利润
2026-05-12 11:08:16
中信证券:纳入算力直连供能选项 氢能应用场景再突破
2026-05-12 09:01:22
腾讯跟投阶跃25亿美金融资 双方已达成战略合作
2026-05-11 16:21:26
工业和信息化部:APEC框架下 开创汽车产业发展新局面
2026-05-12 16:24:54
全球首店!上海开出线下AI应用商店:500+款最新科技产品集中亮相
2026-05-12 07:57:04
国际资本持续加仓 多只海外中国科技ETF规模增长
2026-05-13 07:00:57
强瑞技术入股超能机器人
2026-05-13 10:30:27
日本测试100%可再生能源供电海上数据中心
2026-05-12 11:10:29
商汤善惠烧卖购机器人小店上海“开业”,让机器人真正落地线下零售
2026-05-12 18:23:44
广州:强化智能算力布局
2026-05-11 16:23:37
360发布OpenClaw生态安全报告:AI智能体风险进入自动化审计阶段
2026-05-12 18:22:30
24小时热文
更多
扫一扫体验小程序