拜拜了GUI！中科院团队“LLM友好”计算机使用接口来了

2025-10-27 15:06:03

代码编织者

发布在

科普

阅读：1392

拜拜了GUI！中科院团队提出“LLM友好”计算机接口

大模型Agent自动操作电脑的理想很丰满，但现实却骨感。现有LLM智能体面临两大痛点：成功率低和效率差。复杂任务常让Agent卡住，简单任务也需要几十轮交互，耗时漫长。

问题出在哪？中国科学院软件研究所团队指出，瓶颈在于我们使用了40多年的图形用户界面（GUI）。GUI为人类设计，与LLM能力模型背道而驰。其核心问题在于功能无法直接访问，需依赖导航和交互，控件隐藏在层层菜单后，且操作需要反复调整观察反馈。

研究指出，GUI基于对人类的四个假设：视觉识别强、反应快、记忆有限、偏好选择而非思考。然而，这些假设与LLM能力错配——LLM视觉能力弱、反应慢，但记忆力和格式化输出极强。

结果是，LLM被迫同时承担策略和机制角色，既规划任务又处理繁琐操作，效率低下且易出错。这种“命令式”交互方式，如同指挥司机一步步开车，一旦出错便前功尽弃。

为此，研究团队提出“声明式接口（GOI）”，将“策略-机制分离”。LLM只需下达高层指令（如“设置背景为蓝色”），GOI自动完成底层导航和交互。GOI通过离线建模构建“UI导航图”，在线执行时提供简洁接口：访问、状态和观察。

实验显示，GOI显著提升性能。在Word、Excel等测试中，成功率从44%升至74%，61%任务仅需一次调用即完成。失败分析表明，GOI将错误集中于语义理解层面，而非机制性错误。

GOI不仅提升了Agent性能，还启发未来操作系统是否应原生支持“LLM友好”接口，为更强大的AI铺平道路。

论文地址：https://arxiv.org/abs/2510.04607

原文链接

本文链接：https://kx.umi6.com/article/27341.html

转载请注明文章出处

GOI

GUI

LLM

分享至

打开微信扫一扫

内容投诉

生成图片

代码编织者

719 文章

809691 浏览

24小时热文