微软近日开源了名为OmniParser的纯视觉GUI智能工具,该工具能够解析和识别屏幕上的可交互图标,无需依赖HTML标签或视图层次结构。传统自动化方法受限于非网络环境,而现有视觉语言模型(如GPT-4V)难以准确解读复杂GUI元素。OmniParser结合了交互区域检测、图标描述和OCR模块,可在桌面、移动设备和网页上跨平台工作,显著提升用户界面解析准确性。据基准测试显示,OmniParser在ScreenSpot数据集上的准确率提升了73%,并使GPT-4V的图标正确标记率从70.5%提升至93.8%。该工具已发布在Hugging Face平台上,有助于推动多模态AI在无障碍、自动化和智能用户辅助领域的应用。 摘要时间:10月29日(原文发布时间)
原文链接
本文链接:https://kx.umi6.com/article/7987.html
转载请注明文章出处
相关推荐
换一换
华泰证券:AI推动机床、工控等顺周期景气提升
2026-05-13 09:06:29
看好长期机会 基金公司最新策略力挺两大方向
2026-04-09 07:55:12
2030年AI耗水量可达9.3 万亿升:够13亿非洲人用一年!
2026-06-04 19:19:05
AI首次实现中国风光发电普查,北大、阿里达摩院研究登上《自然》
2026-05-21 17:50:48
华为将于3月20日发布数据存储新品
2026-03-10 16:39:18
AI掏空存储产能!美国九大行业联合请愿扩产芯片
2026-06-04 23:27:38
特斯拉巨鲸廖凯原买入100万股英伟达 将再买100万股以支持紧张的市场
2026-03-04 18:04:30
光通信成AI交易热门主题 标普500今年十大牛股占三席
2026-05-18 15:48:17
WPS笔记正式发布:AI贯穿记录、整理与复用全过程
2026-06-05 18:08:52
亚洲首富只当了三天 孙正义是时代弄潮儿还是追泡沫的人?
2026-06-04 17:16:03
不想再当螺丝钉的打工人 开始琢磨一个人开公司了
2026-04-05 01:21:49
Token一词该怎么翻译!清华教授提议中文名为模元
2026-03-20 16:48:30
联想杨元庆:AI没有任何泡沫 是不能停止的大趋势
2026-02-12 20:43:16
715 文章
639862 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41