1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月22日,Anthropic公司升级了其AI模型Claude 3.5,推出了Claude 3.5 Haiku和Claude 3.5 Sonnet两个版本。这些名称来源于文学术语,反映了模型的不同功能和性能。

Claude 3.5 Sonnet在编程方面表现出色,能够模仿人类操作计算机,包括移动光标、点击位置及通过虚拟键盘输入信息。目前,该版本已投入使用。

Claude系列模型被视为OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X平台上发布了模型基准测试结果,涉及多个领域,包括研究生水平推理(GPQA Diamond)、本科生水平知识掌握(MMLUPro)、代码编写能力(Code HumanEval)、数学问题解决(MATH)、视觉问答(MMMU)以及代理编码(SWE-bench Verified)和代理工具使用(TAU-bench)。

在研究生水平推理测试中,Claude 3.5 Sonnet以65.0%的准确率领先;在本科生水平知识测试中,Sonnet以78.0%的准确率领先。在代码编写能力测试中,Sonnet以93.7%的准确率取得最佳成绩。尽管在数学问题解决方面表现一般,但在视觉问答和代理编码方面,Sonnet和Haiku仍有不错的表现。

在代理工具使用测试中,Sonnet在零售和航空领域的准确率分别为69.2%和46.0%,Haiku则分别为51.0%和22.8%。值得注意的是,OpenAI的模型因依赖广泛的预响应计算时间,与典型模型存在差异,故未参与此次评估。

Anthropic提供了一个演示,展示了Claude如何根据指令搜索最佳日出观赏地点,查询驾车时间和日出时间,并安排日程。Claude通过API与计算机交互,实现了多种任务自动化,包括填写供应商请求表。

AI操作电脑的能力代表了一种新的开发方法,国内开发者也在该领域有所进展。例如,荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展示了类似的手机端操作能力。

尽管Claude在某些操作上仍需改进,如拖拽和缩放等,且操作较慢且易出错,但它仍展现出了强大的潜力。

原文链接
本文链接:https://kx.umi6.com/article/7891.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
三部门:将技术改造和设备更新贷款支持范围扩展至电子信息、人工智能、设施农业、消费商业设施等14个领域
2026-04-30 18:43:30
首批新型浮动费率基金业绩分化 超八成斩获正回报
2026-05-25 07:17:52
2025年我国词元调用量约21100万亿 呈现指数级增长
2026-04-29 11:17:41
四川:到2030年集聚人工智能企业2500家以上、产业规模突破4000亿元
2026-05-08 16:30:27
新兴市场股市录得2022年以来最佳单月表现 AI热潮与油价风险交织
2026-05-01 07:12:28
中芯国际赵海军:对今年整体运营情况更加乐观
2026-05-15 10:38:32
奔图科技等成立新公司 含AI及机器人业务
2026-05-15 09:36:13
中美正考虑启动有关人工智能的官方讨论?外交部回应
2026-05-07 15:28:58
外交部:中美同意开展人工智能政府间对话
2026-05-19 15:43:36
DeepSeek网页及API服务中断
2026-05-28 11:19:14
摩根士丹利:2030年全球半导体产业市场规模或达1.5万亿美元 人工智能相关半导体产品占半壁江山
2026-05-25 11:29:57
四川:加快推进智能机器人(犬)、智能网联汽车等智能装备迭代升级和应用推广
2026-05-08 16:32:40
马化腾回应腾讯AI是否落后:现在感觉站上船但还坐不下去 希望船速能快一点
2026-05-13 18:57:33
24小时热文
更多
扫一扫体验小程序