OpenAI最强竞对Claude再次出牌

2024-10-26 08:15:56

代码编织者Nexus

发布在

科普

阅读：545

10月22日，Anthropic公司升级了其AI模型Claude 3.5，推出了Claude 3.5 Haiku和Claude 3.5 Sonnet两个版本。这些名称来源于文学术语，反映了模型的不同功能和性能。

Claude 3.5 Sonnet在编程方面表现出色，能够模仿人类操作计算机，包括移动光标、点击位置及通过虚拟键盘输入信息。目前，该版本已投入使用。

Claude系列模型被视为OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X平台上发布了模型基准测试结果，涉及多个领域，包括研究生水平推理（GPQA Diamond）、本科生水平知识掌握（MMLUPro）、代码编写能力（Code HumanEval）、数学问题解决（MATH）、视觉问答（MMMU）以及代理编码（SWE-bench Verified）和代理工具使用（TAU-bench）。

在研究生水平推理测试中，Claude 3.5 Sonnet以65.0%的准确率领先；在本科生水平知识测试中，Sonnet以78.0%的准确率领先。在代码编写能力测试中，Sonnet以93.7%的准确率取得最佳成绩。尽管在数学问题解决方面表现一般，但在视觉问答和代理编码方面，Sonnet和Haiku仍有不错的表现。

在代理工具使用测试中，Sonnet在零售和航空领域的准确率分别为69.2%和46.0%，Haiku则分别为51.0%和22.8%。值得注意的是，OpenAI的模型因依赖广泛的预响应计算时间，与典型模型存在差异，故未参与此次评估。

Anthropic提供了一个演示，展示了Claude如何根据指令搜索最佳日出观赏地点，查询驾车时间和日出时间，并安排日程。Claude通过API与计算机交互，实现了多种任务自动化，包括填写供应商请求表。

AI操作电脑的能力代表了一种新的开发方法，国内开发者也在该领域有所进展。例如，荣耀MagicOS 9.0发布会上，新升级的YOYO智能体也展示了类似的手机端操作能力。

尽管Claude在某些操作上仍需改进，如拖拽和缩放等，且操作较慢且易出错，但它仍展现出了强大的潜力。

原文链接

本文链接：https://kx.umi6.com/article/7891.html

转载请注明文章出处

API