智谱技术团队于12月26日开源了GLM-PC基座模型CogAgent-9B-20241220,该模型基于GLM-4V-9B训练,专用于智能体任务。模型仅需屏幕截图作为输入,无需HTML等文本表征,可预测下一步GUI操作。相较于2023年12月开源的第一版,新模型在感知、预测准确性、动作空间完善性、任务普适性和泛化性方面显著提升,并支持中英文双语交互。模型输入包括自然语言指令、历史动作记录和GUI截图。输出包括思考过程、下一步动作的自然语言描述、结构化描述及敏感性判断。CogAgent-9B-20241220在多个数据集上测试表现优异,证明了其强大性能。
原文链接
本文链接:https://kx.umi6.com/article/10821.html
转载请注明文章出处
相关推荐
换一换
中信建投:端到端训练开启Agent新范式 四月国产Agent迎集中发布潮
2025-04-01 09:24:01
WAIC前瞻:多厂商智能体产品首发首秀 Agent迎发布潮
2025-07-21 16:21:09
AGI的不归之途
2025-06-03 08:52:31
智能体商业化打通最后一公里,腾讯元器宣布接入微信支付MCP
2025-07-04 16:45:28
手机端侧AI轻量化演进:3B模型渐成主流 智能体标准亟待完善
2025-10-11 13:30:31
红杉AI峰会150位创始人共识浮现:AI不再卖工具,而是卖收益
2025-05-13 18:56:37
OpenAI 智能体重大更新:Agent SDK 接入 MCP 服务解锁无限工具扩展
2025-03-27 07:34:39
大部分AI赛道已然定型
2025-08-07 07:46:39
ChatGPT智能体正式发布,多个创业赛道昨夜无眠
2025-07-18 09:35:23
AI变革将是未来十年的周期
2025-10-20 17:12:11
揭秘:OpenAI是如何发展出推理模型的?
2025-08-04 18:05:57
智谱发布 AutoGLM 沉思:首个免费、具备深度研究和操作能力的 AI Agent
2025-03-31 12:34:42
大厂「AI」智能体,等待 DeepSeek 时刻
2025-07-31 11:05:08
571 文章
279936 浏览
24小时热文
更多
-
2025-10-27 23:19:56 -
2025-10-27 22:20:44 -
2025-10-27 22:19:40