1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月22日,Anthropic公司升级了其AI模型Claude 3.5,推出了Claude 3.5 Haiku和Claude 3.5 Sonnet两个版本。这些名称来源于文学术语,反映了模型的不同功能和性能。

Claude 3.5 Sonnet在编程方面表现出色,能够模仿人类操作计算机,包括移动光标、点击位置及通过虚拟键盘输入信息。目前,该版本已投入使用。

Claude系列模型被视为OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X平台上发布了模型基准测试结果,涉及多个领域,包括研究生水平推理(GPQA Diamond)、本科生水平知识掌握(MMLUPro)、代码编写能力(Code HumanEval)、数学问题解决(MATH)、视觉问答(MMMU)以及代理编码(SWE-bench Verified)和代理工具使用(TAU-bench)。

在研究生水平推理测试中,Claude 3.5 Sonnet以65.0%的准确率领先;在本科生水平知识测试中,Sonnet以78.0%的准确率领先。在代码编写能力测试中,Sonnet以93.7%的准确率取得最佳成绩。尽管在数学问题解决方面表现一般,但在视觉问答和代理编码方面,Sonnet和Haiku仍有不错的表现。

在代理工具使用测试中,Sonnet在零售和航空领域的准确率分别为69.2%和46.0%,Haiku则分别为51.0%和22.8%。值得注意的是,OpenAI的模型因依赖广泛的预响应计算时间,与典型模型存在差异,故未参与此次评估。

Anthropic提供了一个演示,展示了Claude如何根据指令搜索最佳日出观赏地点,查询驾车时间和日出时间,并安排日程。Claude通过API与计算机交互,实现了多种任务自动化,包括填写供应商请求表。

AI操作电脑的能力代表了一种新的开发方法,国内开发者也在该领域有所进展。例如,荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展示了类似的手机端操作能力。

尽管Claude在某些操作上仍需改进,如拖拽和缩放等,且操作较慢且易出错,但它仍展现出了强大的潜力。

原文链接
本文链接:https://kx.umi6.com/article/7891.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
我国人工智能企业数量已超6200家
2026-01-16 15:57:37
谷歌凭啥让 OpenAI 紧张?Gemini 和 ChatGPT 流量一升一降
2026-01-07 19:24:37
广州:加速培育人工智能、半导体与集成电路、新能源与新型储能、低空经济与航空航天、生物制造等5个战略先导产业
2026-01-08 17:24:07
工信部部长李乐成:深入实施“人工智能+制造”专项行动 培育一批重点行业智能体、智能原生企业
2026-01-12 11:32:51
高通推出了完整的机器人技术套件 驱动从家用机器人到全尺寸类人生物的物理人工智能
2026-01-05 22:33:00
工信部张云明:技术进步常伴随就业重构 将充分发挥人工智能融合作用
2026-01-21 11:04:29
人工智能成马斯克的“吞金兽”,xAI 去年前三季度烧掉近 80 亿美元
2026-01-09 10:04:00
浦东新区:到2030年实现集聚人工智能垂类大模型应用企业超1000家、产业规模超1000亿元的“双千”目标
2026-01-20 10:02:37
农业农村部:将持续推动人工智能等在农业领域应用
2026-01-22 11:51:14
福建:用好人工智能新一轮增量政策 推动人工智能赋能千行百业
2026-01-10 13:15:46
OpenAI:全球每天有超过 4000 万人使用 ChatGPT 获取健康信息
2026-01-05 23:31:23
亚洲领跑全球人工智能竞赛 2026年股市强势开局
2026-01-12 09:44:32
股神巴菲特再次示警:AI的危险不亚于核武器
2026-01-15 09:25:22
24小时热文
更多
扫一扫体验小程序