标题:Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控
正文: 新加坡国立大学团队测试了Claude在20多个场景下的表现,其中最吸引人的是AI能自动玩手游并完成日常任务。研究中选用米哈游的《崩坏:星穹铁道》,只需对Claude说“帮我完成今天的模拟宇宙”,它就能自动打开游戏菜单、找到“黄金花萼”、设置挑战次数,并启动自动战斗。
这项技术不仅限于游戏,Claude还能智能理解规则和目标,在不同任务间灵活调整。它还展示了在网页搜索、办公软件操作等方面的强大能力,如在Amazon和Apple官网下单购物、在Apple Music添加歌曲、编辑Excel数据等。
Claude Computer Use的潜力远未被完全挖掘。该系统基于API设计了一个自动化GUI框架,分为系统提示、状态观察、推理范式、工具使用、GUI动作空间和历史视觉上下文维护六个部分。团队设计了详尽的测试实验,涵盖了网页搜索、工作流程、办公生产力和视频游戏等多个领域。
尽管Claude在某些复杂操作中偶尔失败,比如未能正确导航到特定网页选项卡或准确选择文本字段,但整体表现令人印象深刻。团队已公开所有测试用例的具体信息,未来值得期待。
参考资料: https://arxiv.org/pdf/2411.10323 https://github.com/showlab/computer_use_ootb
原文链接
本文链接:https://kx.umi6.com/article/9520.html
转载请注明文章出处
相关推荐
换一换
LMArena排行榜:Claude、GPT-5、智谱GLM-4.6排名并列全球第一
2025-11-13 21:22:57
10 万次 Claude 真实对话洞察,AI 平均可缩短工作任务时间约 80%
2025-11-26 12:42:50
OpenAI头号叛徒,竟然是自学的AI?
2025-08-22 16:48:45
OpenAI最新测试:GPT-5与Claude在部分工作中可媲美人类专家
2025-09-26 04:16:50
Claude 看齐 ChatGPT 新增 AI 自动记忆,能记住你的每一次对话
2025-10-24 09:31:18
Claude竟藏着3307种「人格」?深扒70万次对话,这个AI会看人下菜碟
2025-05-05 09:40:29
AI被连续否定30次:ChatGPT越改越错,Claude坚持自我,甚至已读不回
2024-09-10 18:58:32
你的iPhone 即将“换脑”,ChatGPT 和Claude 有望接管苹果AI,Siri 要变聪明了?
2025-07-01 12:54:05
苹果发布 Xcode 26 Beta 7:新增 GPT-5 支持并集成 Claude
2025-08-29 07:32:56
Anthropic AI 聊天机器人 Claude 新增联网搜索功能
2025-03-21 12:19:50
Claude 3.5 编程收入暴增 10 倍,抢走 Cursor 反杀 OpenAI
2024-12-16 09:35:43
ChatGPT和Claude,已经不是同一条路上的玩家了
2025-09-17 18:33:53
Claude 用户注意:聊天记录将被用于 AI 训练,默认同意
2025-08-29 09:37:27
639 文章
478614 浏览
24小时热文
更多
-
2026-02-04 02:16:32 -
2026-02-04 02:15:33 -
2026-02-04 02:14:23