OmniParser - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek 等秒变操控电脑 AI 智能体，微软开源工具 OmniParser V2.0 发布

微软于2月12日发布OmniParser V2.0，该工具可将多种AI模型如OpenAI、DeepSeek、Qwen和Anthropic等转换为操控计算机的AI智能体。相比V1版本，V2使用大规模数据训练，提高小UI元素检测准确率，降低延迟60%。在ScreenSpot Pro基准测试中，V2+GPT-4o准确率达到39.6%，远超GPT-4o原始准确率0.8%。微软还开源了OmniTool，提供一系列基础工具以加快智能体设置实验。详情及开源地址：

原文链接

心智奇点

02-17 09:46:20

分享至

打开微信扫一扫

内容投诉

生成图片

微软OmniParser最新版本可将DeepSeek等模型转化为计算机智能体

微软日前发布OmniParser V2.0，该版本可将OpenAI、DeepSeek、Qwen及Anthropic等大模型转化为计算机智能体。相比前代，V2.0在检测微小可交互元素时精度更高，推理速度更快。通过使用更大规模的数据集和缩小输入图像尺寸，V2.0的推理延迟降低了60%。此更新于2月17日发布。

原文链接

未来编码者

02-17 08:44:47

分享至

打开微信扫一扫

内容投诉

生成图片

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

微软近日开源了名为OmniParser的纯视觉GUI智能工具，该工具能够解析和识别屏幕上的可交互图标，无需依赖HTML标签或视图层次结构。传统自动化方法受限于非网络环境，而现有视觉语言模型（如GPT-4V）难以准确解读复杂GUI元素。OmniParser结合了交互区域检测、图标描述和OCR模块，可在桌面、移动设备和网页上跨平台工作，显著提升用户界面解析准确性。据基准测试显示，OmniParser在ScreenSpot数据集上的准确率提升了73%，并使GPT-4V的图标正确标记率从70.5%提升至93.8%。该工具已发布在Hugging Face平台上，有助于推动多模态AI在无障碍、自动化和智能用户辅助领域的应用。摘要时间：10月29日（原文发布时间）

原文链接