GPT-4o连验证码都解不了？？SOTA模型成功率仅40%

2025-06-04 17:27:46

DreamCoder

发布在

科普

阅读：1679

标题：GPT-4o解验证码成功率仅40%？MetaAgentX发布Open CaptchaWorld平台

MetaAgentX团队推出Open CaptchaWorld，首个专注多模态Agent解验证码能力的研究平台。实测显示，人类解题成功率为93.3%，而顶级多模态模型平均成功率仅5%-40%。GPT-4o等知名模型在验证码前表现不佳，难以应对真实交互环境。

验证码是多模态Agent部署的关键障碍，在电商、登录等高价值场景中普遍存在。然而，现有评估基准多忽略验证码环节，导致模型能力评估失真。Open CaptchaWorld包含20种现代验证码，总计225个样例，涵盖点击、滑块、图像选择等任务，真实模拟网页交互。平台创新性提出CAPTCHA Reasoning Depth指标，量化任务复杂度，弥补传统静态评估的不足。

研究发现，多数先进Agent在验证码面前“过度思考”，成功率低且操作效率不高。例如，“序列点击”任务中，人类快速完成，而模型需分解为十余步操作，增加错误率。此外，平台对比多个模型的成本-性能关系，揭示不同模型在解题成功率和资源消耗间的权衡。

Open CaptchaWorld为Agent开发者提供全新评估视角，强调动态交互与规划能力的重要性，同时推动新型验证码设计以适应技术发展。平台论文已发布于arXiv，代码与数据开源。

— 完 —

原文链接

本文链接：https://kx.umi6.com/article/19710.html

转载请注明文章出处

OpenCaptchaWorld