浏览器交互 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

谷歌发布 Gemini 2.5 Computer Use 模型：专攻浏览器交互，支持 13 种操作

10月8日，谷歌发布全新AI模型“Gemini 2.5 Computer Use”，专为浏览器交互设计，支持13种操作，如填写表单、打开网页等。该模型利用视觉理解与推理能力，可在人用界面中执行任务，适用于用户界面测试或无API系统的操作。谷歌称其在多项基准测试中优于现有方案，并开放了在线演示功能，包括玩2048游戏和浏览Hacker News讨论。与ChatGPT智能体等工具不同，该模型仅限于浏览器环境，尚未支持桌面系统层级的控制。此次发布恰逢OpenAI推出ChatGPT新应用次日，AI领域的竞争进一步升温。

原文链接