1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月22日,Anthropic公司升级了其AI模型Claude 3.5,推出了Claude 3.5 Haiku和Claude 3.5 Sonnet两个版本。这些名称来源于文学术语,反映了模型的不同功能和性能。

Claude 3.5 Sonnet在编程方面表现出色,能够模仿人类操作计算机,包括移动光标、点击位置及通过虚拟键盘输入信息。目前,该版本已投入使用。

Claude系列模型被视为OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X平台上发布了模型基准测试结果,涉及多个领域,包括研究生水平推理(GPQA Diamond)、本科生水平知识掌握(MMLUPro)、代码编写能力(Code HumanEval)、数学问题解决(MATH)、视觉问答(MMMU)以及代理编码(SWE-bench Verified)和代理工具使用(TAU-bench)。

在研究生水平推理测试中,Claude 3.5 Sonnet以65.0%的准确率领先;在本科生水平知识测试中,Sonnet以78.0%的准确率领先。在代码编写能力测试中,Sonnet以93.7%的准确率取得最佳成绩。尽管在数学问题解决方面表现一般,但在视觉问答和代理编码方面,Sonnet和Haiku仍有不错的表现。

在代理工具使用测试中,Sonnet在零售和航空领域的准确率分别为69.2%和46.0%,Haiku则分别为51.0%和22.8%。值得注意的是,OpenAI的模型因依赖广泛的预响应计算时间,与典型模型存在差异,故未参与此次评估。

Anthropic提供了一个演示,展示了Claude如何根据指令搜索最佳日出观赏地点,查询驾车时间和日出时间,并安排日程。Claude通过API与计算机交互,实现了多种任务自动化,包括填写供应商请求表。

AI操作电脑的能力代表了一种新的开发方法,国内开发者也在该领域有所进展。例如,荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展示了类似的手机端操作能力。

尽管Claude在某些操作上仍需改进,如拖拽和缩放等,且操作较慢且易出错,但它仍展现出了强大的潜力。

原文链接
本文链接:https://kx.umi6.com/article/7891.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
重仓人工智能 主题基金迎来“别样风景”
2025-08-25 05:22:06
科创芯片迎强劲财报季:Q2营收环比集体爆发 产业旺季来临这些方向有望受益
2025-08-27 18:08:32
多元文化业态涌现 虚拟现实人才需求将超680万个
2025-08-19 23:06:12
英伟达:弥补弱点,乘上人工智能热潮
2025-09-02 12:32:42
国家发展改革委副主任周海兵会见乌兹别克斯坦副总理霍贾耶夫
2025-09-01 12:17:40
两部门:推进人工智能技术在虚拟电厂(含负荷聚合商)、分布式储能、电动汽车车网互动等灵活性调节资源中的应用
2025-09-08 10:57:33
凯思博投资创始人郑方:从英伟达到今日人才,用人类解放逻辑押注AI赛道
2025-08-27 13:03:15
数字复活来袭,你会“复活”自己的挚爱么?
2025-09-03 15:49:26
大摩调查揭秘“热门趋势”:加密货币采用仍处早期,对AI更为开放!
2025-08-25 10:28:34
AI“副驾”增强脑机接口操控力
2025-09-03 08:43:27
《上海合作组织成员国元首理事会关于进一步深化人工智能国际合作的声明》发布
2025-09-02 01:25:49
我国人工智能企业数量已超5000家
2025-09-08 11:58:15
国家发展改革委:未来1-2年是人工智能落地的关键窗口期
2025-08-29 11:37:30
24小时热文
更多
扫一扫体验小程序