标题:Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控
正文: 新加坡国立大学团队测试了Claude在20多个场景下的表现,其中最吸引人的是AI能自动玩手游并完成日常任务。研究中选用米哈游的《崩坏:星穹铁道》,只需对Claude说“帮我完成今天的模拟宇宙”,它就能自动打开游戏菜单、找到“黄金花萼”、设置挑战次数,并启动自动战斗。
这项技术不仅限于游戏,Claude还能智能理解规则和目标,在不同任务间灵活调整。它还展示了在网页搜索、办公软件操作等方面的强大能力,如在Amazon和Apple官网下单购物、在Apple Music添加歌曲、编辑Excel数据等。
Claude Computer Use的潜力远未被完全挖掘。该系统基于API设计了一个自动化GUI框架,分为系统提示、状态观察、推理范式、工具使用、GUI动作空间和历史视觉上下文维护六个部分。团队设计了详尽的测试实验,涵盖了网页搜索、工作流程、办公生产力和视频游戏等多个领域。
尽管Claude在某些复杂操作中偶尔失败,比如未能正确导航到特定网页选项卡或准确选择文本字段,但整体表现令人印象深刻。团队已公开所有测试用例的具体信息,未来值得期待。
参考资料: https://arxiv.org/pdf/2411.10323 https://github.com/showlab/computer_use_ootb
原文链接
本文链接:https://kx.umi6.com/article/9520.html
转载请注明文章出处
相关推荐
.png)
换一换
Claude公司估值615亿美元再融35亿,那DeepSeek…
2025-03-04 21:30:42
Anthropic 推出新功能:用户可直接在 Claude 聊天机器人中构建 AI 驱动应用
2025-06-26 07:37:47
只要4.66MB,安卓版Claude今日起人人可下,AI应用版图已补全
2024-07-17 15:46:06
Claude 自动玩崩铁清日常,NUS 新论文完整测评 AI 电脑操控
2024-11-23 12:25:38
Anthropic推出专业金融AI服务
2025-07-16 09:02:55
美国网约车巨头 Lyft 同 Anthropic 达成合作:Claude 将为百万司机提供服务
2025-02-10 12:08:58
Claude断供OpenAI,AI编程竞争再升级
2025-08-05 08:13:36
OpenAI头号叛徒,竟然是自学的AI?
2025-08-22 16:48:45
Claude 接管人类电脑编程:程序员沸腾、OpenAI 反击,智能体大战一触即发
2024-10-25 23:02:57
Llama惨遭抛弃!Meta内部改用Claude写代码
2025-07-11 09:32:54
Claude 全盘操控商店运营实验:1 个月净资产缩水 20%,Anthropic 仍看好 AI 接管经济前景
2025-06-28 08:17:35
AI写研报走进现实!明星初创公司Anthropic推出专业金融AI服务
2025-07-16 09:00:40
AI 聊天机器人 Claude 新增跨平台记忆:用户度假归来可追溯上周聊天记录
2025-08-12 10:14:40
471 文章
175836 浏览
24小时热文
更多

-
2025-09-06 15:35:56
-
2025-09-06 15:35:37
-
2025-09-06 14:35:37