综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年3月,Claude Code推出重大升级,新增基于GUI的Computer Use能力,精准反击开源项目OpenClaw。新功能使Claude能够通过实时截图‘看到’屏幕内容,并模拟鼠标键盘操作,像真人一样操控电脑,适用于传统软件、专业创意工具等。新增远程控制和定时任务功能,用户可通过手机派活,或设置自动运行任务。安全设计上,优先调用已授权集成能力,敏感操作需用户确认,并推荐在Docker隔离环境中运行。目前功能向Claude Pro和Max用户开放,macOS独占,后续将支持Windows和Linux。网友热议其token消耗成本,称连续运行8小时可能花费巨大。
原文链接
拜拜了GUI!中科院团队提出“LLM友好”计算机接口
大模型Agent自动操作电脑的理想很丰满,但现实却骨感。现有LLM智能体面临两大痛点:成功率低和效率差。复杂任务常让Agent卡住,简单任务也需要几十轮交互,耗时漫长。
问题出在哪?中国科学院软件研究所团队指出,瓶颈在于我们使用了40多年的图形用...
原文链接
新加坡国立大学团队近期发布的一项新论文显示,AI系统Claude能够自动操控电脑,完成多种任务,包括游戏和办公任务。在《崩坏:星穹铁道》游戏中,Claude能自动完成日常任务,如挑战模拟宇宙,甚至启动自动战斗。此外,Claude还能在Amazon和Apple官网成功下单购物,添加歌曲到Apple Music,编辑Excel数据,安装应用,并在Outlook中转发邮件等。尽管在一些复杂的网页操作和办公软件任务中出现了失败案例,但整体表现令人印象深刻。该研究提出了一个开箱即用的自动GUI框架,展示了Claude的强大潜力。此研究成果已于近日发布,未来值得期待。
摘要保留了关键信息,包括时间、地点、事件及研究的主要发现,符合新闻三要素。
原文链接
微软近日开源了名为OmniParser的纯视觉GUI智能工具,该工具能够解析和识别屏幕上的可交互图标,无需依赖HTML标签或视图层次结构。传统自动化方法受限于非网络环境,而现有视觉语言模型(如GPT-4V)难以准确解读复杂GUI元素。OmniParser结合了交互区域检测、图标描述和OCR模块,可在桌面、移动设备和网页上跨平台工作,显著提升用户界面解析准确性。据基准测试显示,OmniParser在ScreenSpot数据集上的准确率提升了73%,并使GPT-4V的图标正确标记率从70.5%提升至93.8%。该工具已发布在Hugging Face平台上,有助于推动多模态AI在无障碍、自动化和智能用户辅助领域的应用。
摘要时间:10月29日(原文发布时间)
原文链接
加载更多
暂无内容