综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
智谱技术团队于12月26日开源了GLM-PC基座模型CogAgent-9B-20241220,该模型基于GLM-4V-9B训练,专用于智能体任务。模型仅需屏幕截图作为输入,无需HTML等文本表征,可预测下一步GUI操作。相较于2023年12月开源的第一版,新模型在感知、预测准确性、动作空间完善性、任务普适性和泛化性方面显著提升,并支持中英文双语交互。模型输入包括自然语言指令、历史动作记录和GUI截图。输出包括思考过程、下一步动作的自然语言描述、结构化描述及敏感性判断。CogAgent-9B-20241220在多个数据集上测试表现优异,证明了其强大性能。
原文链接
加载更多
暂无内容