1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月22日,Anthropic公司升级了其AI模型Claude 3.5,推出了Claude 3.5 Haiku和Claude 3.5 Sonnet两个版本。这些名称来源于文学术语,反映了模型的不同功能和性能。

Claude 3.5 Sonnet在编程方面表现出色,能够模仿人类操作计算机,包括移动光标、点击位置及通过虚拟键盘输入信息。目前,该版本已投入使用。

Claude系列模型被视为OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X平台上发布了模型基准测试结果,涉及多个领域,包括研究生水平推理(GPQA Diamond)、本科生水平知识掌握(MMLUPro)、代码编写能力(Code HumanEval)、数学问题解决(MATH)、视觉问答(MMMU)以及代理编码(SWE-bench Verified)和代理工具使用(TAU-bench)。

在研究生水平推理测试中,Claude 3.5 Sonnet以65.0%的准确率领先;在本科生水平知识测试中,Sonnet以78.0%的准确率领先。在代码编写能力测试中,Sonnet以93.7%的准确率取得最佳成绩。尽管在数学问题解决方面表现一般,但在视觉问答和代理编码方面,Sonnet和Haiku仍有不错的表现。

在代理工具使用测试中,Sonnet在零售和航空领域的准确率分别为69.2%和46.0%,Haiku则分别为51.0%和22.8%。值得注意的是,OpenAI的模型因依赖广泛的预响应计算时间,与典型模型存在差异,故未参与此次评估。

Anthropic提供了一个演示,展示了Claude如何根据指令搜索最佳日出观赏地点,查询驾车时间和日出时间,并安排日程。Claude通过API与计算机交互,实现了多种任务自动化,包括填写供应商请求表。

AI操作电脑的能力代表了一种新的开发方法,国内开发者也在该领域有所进展。例如,荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展示了类似的手机端操作能力。

尽管Claude在某些操作上仍需改进,如拖拽和缩放等,且操作较慢且易出错,但它仍展现出了强大的潜力。

原文链接
本文链接:https://kx.umi6.com/article/7891.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
俄研究机构训练人工智能识别早期乳腺癌
2026-03-07 11:27:53
深圳:建立无人机自主能力演进体系 逐步培育空中具身智能
2026-02-12 19:43:45
深圳:到2027年在“人工智能+”先进制造业领域建成国家人工智能应用中试基地
2026-02-12 19:41:31
美联储理事沃勒:美国央行正推进人工智能的系统性部署
2026-02-25 01:33:07
全球最贵互联网域名!AI.com以7000万美元天价转手
2026-02-08 11:00:02
人工智能初创企业Anthropic完成300亿美元融资 投后估值达3800亿美元
2026-02-13 03:58:33
国家发展改革委主任:“十五五”末人工智能相关产业规模将增长到10万亿元以上
2026-03-06 16:15:23
印度声称将斥2000亿建数据中心
2026-02-17 21:50:39
深圳:2026年人工智能产业集群增加值增长10%以上 集中力量攻坚算法理论、智算芯片、智能机器人等核心技术
2026-02-09 11:04:56
深圳:支持建设具身智能技术试验场
2026-02-12 19:43:39
国光电器成立智能机器人装备公司 含AI业务
2026-02-24 13:51:04
李飞飞的人工智能初创公司World Labs融资10亿美元
2026-02-19 01:54:00
国家邮政局:推动人工智能在行业健康有序发展
2026-02-27 21:13:10
24小时热文
更多
扫一扫体验小程序