1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月22日,Anthropic公司升级了其AI模型Claude 3.5,推出了Claude 3.5 Haiku和Claude 3.5 Sonnet两个版本。这些名称来源于文学术语,反映了模型的不同功能和性能。

Claude 3.5 Sonnet在编程方面表现出色,能够模仿人类操作计算机,包括移动光标、点击位置及通过虚拟键盘输入信息。目前,该版本已投入使用。

Claude系列模型被视为OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X平台上发布了模型基准测试结果,涉及多个领域,包括研究生水平推理(GPQA Diamond)、本科生水平知识掌握(MMLUPro)、代码编写能力(Code HumanEval)、数学问题解决(MATH)、视觉问答(MMMU)以及代理编码(SWE-bench Verified)和代理工具使用(TAU-bench)。

在研究生水平推理测试中,Claude 3.5 Sonnet以65.0%的准确率领先;在本科生水平知识测试中,Sonnet以78.0%的准确率领先。在代码编写能力测试中,Sonnet以93.7%的准确率取得最佳成绩。尽管在数学问题解决方面表现一般,但在视觉问答和代理编码方面,Sonnet和Haiku仍有不错的表现。

在代理工具使用测试中,Sonnet在零售和航空领域的准确率分别为69.2%和46.0%,Haiku则分别为51.0%和22.8%。值得注意的是,OpenAI的模型因依赖广泛的预响应计算时间,与典型模型存在差异,故未参与此次评估。

Anthropic提供了一个演示,展示了Claude如何根据指令搜索最佳日出观赏地点,查询驾车时间和日出时间,并安排日程。Claude通过API与计算机交互,实现了多种任务自动化,包括填写供应商请求表。

AI操作电脑的能力代表了一种新的开发方法,国内开发者也在该领域有所进展。例如,荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展示了类似的手机端操作能力。

尽管Claude在某些操作上仍需改进,如拖拽和缩放等,且操作较慢且易出错,但它仍展现出了强大的潜力。

原文链接
本文链接:https://kx.umi6.com/article/7891.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
工信部总工程师钟志红:实施工业互联网和人工智能双向赋能行动 发展工业智能体
2025-10-11 17:33:49
史无前例!“AI教父”等超800名科技领袖联合呼吁:停止研发超级智能
2025-10-22 16:49:54
强脑科技在成都设新公司 含AI相关业务
2025-10-23 14:07:29
还在担心AI“抢饭碗”?专家:这不过是企业裁员的借口!
2025-10-20 14:07:00
9月以来近2000亿元涌入ETF 新发产品批量上市
2025-10-13 05:51:55
Meta削减人工智能部门约600个职位,精简架构以加速组织转型
2025-10-23 02:55:30
如何为5年1万亿美元支出筹钱?OpenAI正探索更多可持续商业模式
2025-10-15 16:40:33
甲骨文联席CEO为巨额AI投资辩护:旨在打造AI生态系统
2025-10-15 17:40:21
上海:到2027年人工智能计算机、人工智能手机、人工智能新终端规模各达到千万台以上
2025-10-14 18:21:26
牛津大学出版社调查:8 成 13-18 岁青少年在作业中使用 AI,辨别信息真假仍是挑战
2025-10-15 16:36:41
Grok逼着维基百科站上擂台
2025-10-22 14:47:10
阿布扎比重投AI
2025-10-18 16:36:41
富国银行和辉瑞警告:美国在许多领域的优势正失去,AI是竞争关键!
2025-10-16 09:52:31
24小时热文
更多
扫一扫体验小程序