综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年5月,UniPat AI发布的SaaS-Bench评测揭示了AI Agent在真实办公场景中的能力短板。尽管过去一年多家公司声称其Agent可实现“全自动办公”,但测试显示,即使是表现最强的Claude Opus 4.7,在106个跨应用、长流程任务中,完全通过率仅为3.8%。SaaS-Bench通过Docker部署23个真实SaaS系统,模拟医疗、财务、团队协作等六大领域的工作流,发现现有Agent难以完成复杂、多步骤的任务。评测暴露了四大核心问题:任务越长错误越多、一步错导致全盘皆输、缺乏闭环验证机制、执行稳定性差。研究指出,当前Agent范式存在深层局限,距离真正可用的“全自动办公”仍有显著差距。未来或需重新设计面向Agent的软件界面。
原文链接
加载更多
暂无内容