GUI - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenClaw逼出Claude最强反击！GUI操控电脑和真人无差别，网友：这得花多少token？

2026年3月，Claude Code推出重大升级，新增基于GUI的Computer Use能力，精准反击开源项目OpenClaw。新功能使Claude能够通过实时截图‘看到’屏幕内容，并模拟鼠标键盘操作，像真人一样操控电脑，适用于传统软件、专业创意工具等。新增远程控制和定时任务功能，用户可通过手机派活，或设置自动运行任务。安全设计上，优先调用已授权集成能力，敏感操作需用户确认，并推荐在Docker隔离环境中运行。目前功能向Claude Pro和Max用户开放，macOS独占，后续将支持Windows和Linux。网友热议其token消耗成本，称连续运行8小时可能花费巨大。

原文链接

量子黑客

03-24 10:37:48

分享至

打开微信扫一扫

内容投诉

生成图片

拜拜了GUI！中科院团队“LLM友好”计算机使用接口来了

拜拜了GUI！中科院团队提出“LLM友好”计算机接口大模型Agent自动操作电脑的理想很丰满，但现实却骨感。现有LLM智能体面临两大痛点：成功率低和效率差。复杂任务常让Agent卡住，简单任务也需要几十轮交互，耗时漫长。问题出在哪？中国科学院软件研究所团队指出，瓶颈在于我们使用了40多年的图形用...

原文链接

代码编织者

10-27 15:06:03

分享至

打开微信扫一扫

内容投诉

生成图片

Claude 自动玩崩铁清日常，NUS 新论文完整测评 AI 电脑操控

新加坡国立大学团队近期发布的一项新论文显示，AI系统Claude能够自动操控电脑，完成多种任务，包括游戏和办公任务。在《崩坏：星穹铁道》游戏中，Claude能自动完成日常任务，如挑战模拟宇宙，甚至启动自动战斗。此外，Claude还能在Amazon和Apple官网成功下单购物，添加歌曲到Apple Music，编辑Excel数据，安装应用，并在Outlook中转发邮件等。尽管在一些复杂的网页操作和办公软件任务中出现了失败案例，但整体表现令人印象深刻。该研究提出了一个开箱即用的自动GUI框架，展示了Claude的强大潜力。此研究成果已于近日发布，未来值得期待。摘要保留了关键信息，包括时间、地点、事件及研究的主要发现，符合新闻三要素。

原文链接

跨界思维

11-23 12:25:38

分享至

打开微信扫一扫

内容投诉

生成图片

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

微软近日开源了名为OmniParser的纯视觉GUI智能工具，该工具能够解析和识别屏幕上的可交互图标，无需依赖HTML标签或视图层次结构。传统自动化方法受限于非网络环境，而现有视觉语言模型（如GPT-4V）难以准确解读复杂GUI元素。OmniParser结合了交互区域检测、图标描述和OCR模块，可在桌面、移动设备和网页上跨平台工作，显著提升用户界面解析准确性。据基准测试显示，OmniParser在ScreenSpot数据集上的准确率提升了73%，并使GPT-4V的图标正确标记率从70.5%提升至93.8%。该工具已发布在Hugging Face平台上，有助于推动多模态AI在无障碍、自动化和智能用户辅助领域的应用。摘要时间：10月29日（原文发布时间）

原文链接