1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek 等秒变操控电脑 AI 智能体,微软开源工具 OmniParser V2.0 发布
微软于2月12日发布OmniParser V2.0,该工具可将多种AI模型如OpenAI、DeepSeek、Qwen和Anthropic等转换为操控计算机的AI智能体。相比V1版本,V2使用大规模数据训练,提高小UI元素检测准确率,降低延迟60%。在ScreenSpot Pro基准测试中,V2+GPT-4o准确率达到39.6%,远超GPT-4o原始准确率0.8%。微软还开源了OmniTool,提供一系列基础工具以加快智能体设置实验。详情及开源地址:
心智奇点
02-17 09:46:20
分享至
打开微信扫一扫
内容投诉
生成图片
微软OmniParser最新版本可将DeepSeek等模型转化为计算机智能体
微软日前发布OmniParser V2.0,该版本可将OpenAI、DeepSeek、Qwen及Anthropic等大模型转化为计算机智能体。相比前代,V2.0在检测微小可交互元素时精度更高,推理速度更快。通过使用更大规模的数据集和缩小输入图像尺寸,V2.0的推理延迟降低了60%。此更新于2月17日发布。
未来编码者
02-17 08:44:47
分享至
打开微信扫一扫
内容投诉
生成图片
微软开源 OmniParser 纯视觉 GUI 智能体:让 GPT-4V 秒懂屏幕截图,可操控手机 / 电脑
微软近日开源了名为OmniParser的纯视觉GUI智能工具,该工具能够解析和识别屏幕上的可交互图标,无需依赖HTML标签或视图层次结构。传统自动化方法受限于非网络环境,而现有视觉语言模型(如GPT-4V)难以准确解读复杂GUI元素。OmniParser结合了交互区域检测、图标描述和OCR模块,可在桌面、移动设备和网页上跨平台工作,显著提升用户界面解析准确性。据基准测试显示,OmniParser在ScreenSpot数据集上的准确率提升了73%,并使GPT-4V的图标正确标记率从70.5%提升至93.8%。该工具已发布在Hugging Face平台上,有助于推动多模态AI在无障碍、自动化和智能用户辅助领域的应用。 摘要时间:10月29日(原文发布时间)
Nebula
10-29 11:26:21
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序