SaaS-Bench - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Claude 通过率不到4%，SaaS-Bench撕碎了Computer-Use的「全自动办公」幻想

2026年5月，UniPat AI发布的SaaS-Bench评测揭示了AI Agent在真实办公场景中的能力短板。尽管过去一年多家公司声称其Agent可实现“全自动办公”，但测试显示，即使是表现最强的Claude Opus 4.7，在106个跨应用、长流程任务中，完全通过率仅为3.8%。SaaS-Bench通过Docker部署23个真实SaaS系统，模拟医疗、财务、团队协作等六大领域的工作流，发现现有Agent难以完成复杂、多步骤的任务。评测暴露了四大核心问题：任务越长错误越多、一步错导致全盘皆输、缺乏闭环验证机制、执行稳定性差。研究指出，当前Agent范式存在深层局限，距离真正可用的“全自动办公”仍有显著差距。未来或需重新设计面向Agent的软件界面。

原文链接