1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10月22日,Anthropic公司升级了其AI模型Claude 3.5,推出了Claude 3.5 Haiku和Claude 3.5 Sonnet两个版本。这些名称来源于文学术语,反映了模型的不同功能和性能。

Claude 3.5 Sonnet在编程方面表现出色,能够模仿人类操作计算机,包括移动光标、点击位置及通过虚拟键盘输入信息。目前,该版本已投入使用。

Claude系列模型被视为OpenAI的ChatGPT和谷歌的Gemini的主要竞争对手。Anthropic在X平台上发布了模型基准测试结果,涉及多个领域,包括研究生水平推理(GPQA Diamond)、本科生水平知识掌握(MMLUPro)、代码编写能力(Code HumanEval)、数学问题解决(MATH)、视觉问答(MMMU)以及代理编码(SWE-bench Verified)和代理工具使用(TAU-bench)。

在研究生水平推理测试中,Claude 3.5 Sonnet以65.0%的准确率领先;在本科生水平知识测试中,Sonnet以78.0%的准确率领先。在代码编写能力测试中,Sonnet以93.7%的准确率取得最佳成绩。尽管在数学问题解决方面表现一般,但在视觉问答和代理编码方面,Sonnet和Haiku仍有不错的表现。

在代理工具使用测试中,Sonnet在零售和航空领域的准确率分别为69.2%和46.0%,Haiku则分别为51.0%和22.8%。值得注意的是,OpenAI的模型因依赖广泛的预响应计算时间,与典型模型存在差异,故未参与此次评估。

Anthropic提供了一个演示,展示了Claude如何根据指令搜索最佳日出观赏地点,查询驾车时间和日出时间,并安排日程。Claude通过API与计算机交互,实现了多种任务自动化,包括填写供应商请求表。

AI操作电脑的能力代表了一种新的开发方法,国内开发者也在该领域有所进展。例如,荣耀MagicOS 9.0发布会上,新升级的YOYO智能体也展示了类似的手机端操作能力。

尽管Claude在某些操作上仍需改进,如拖拽和缩放等,且操作较慢且易出错,但它仍展现出了强大的潜力。

原文链接
本文链接:https://kx.umi6.com/article/7891.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI将冲击几乎所有工作!麦肯锡预测:全球高达8亿个岗位会被取代
2025-12-08 11:24:37
我国已建成高质量数据集总量超500PB
2025-12-04 11:16:07
广西“十五五”规划建议:高标准建设中国—东盟国家人工智能应用合作中心
2025-12-07 10:23:39
外资扎堆唱多!瑞银、富达国际齐发声:看好中国科技股
2025-11-28 09:21:24
“迈向人工智能+时代”2025年大湾区交易所科技大会在深交所举办
2025-11-28 15:35:17
“人工智能教父” 辛顿:即便 AI 重塑编程行业,计算机科学学位仍具重要价值
2025-12-08 08:12:37
浙江“十五五”规划建议:聚焦具身智能、智能驾驶等重点领域建设全国领先的核心产业集群
2025-12-03 09:17:36
特朗普签署行政令 启动人工智能“创世纪计划”
2025-11-25 07:40:07
东华软件在福州新设科技公司 含多项AI业务
2025-11-25 11:49:42
浙江:统筹建设算力数据模型基础性工程 力争2026年全省智算规模达到200EFlops
2025-12-03 14:23:40
荣旗科技新设子公司 含AI软件开发业务
2025-11-25 13:53:21
中央网信办公示2025年“人工智能+政务”规范应用案例拟入选名单
2025-12-01 17:25:17
摩根大通CEO谈AI:使人们可以工作不那么辛苦 享受美好生活
2025-12-08 11:23:28
24小时热文
更多
扫一扫体验小程序