1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

苹果团队最新发布的开源成果——名为ToolSandbox的模型工具调用能力评估基准,采用创新的场景化测评方法,旨在更好地展现模型在真实环境中的水平。该基准引入了对话交互、状态依赖等传统标准未覆盖的重要场景,显著提高了评估的全面性和实用性。ToolSandbox通过让GPT-4o扮演用户与模型进行交互,模拟真实世界中的场景,进一步增强了测试的真实感。在测试中,闭源模型整体表现优于开源模型,其中GPT-4o在各项指标上均表现出色,尤其在鲁棒性和效率方面。开源模型在识别何时调用工具方面存在不足,更倾向于将问题视为文本生成任务。这一研究不仅揭示了大模型在工具使用方面的现状和挑战,也为未来模型的优化和发展提供了宝贵的方向。ToolSandbox的作者团队由来自苹果公司的多位资深专家组成,其中不乏来自清华和卡内基梅隆大学的华人学者,体现了苹果在人工智能领域的深厚技术积累和国际视野。这一成果不仅丰富了模型评估的标准和方法,也为业界提供了有价值的参考,有望推动模型工具调用能力的提升,特别是对于iOS应用开发者而言,具有重要的实践意义。

原文链接
本文链接:https://kx.umi6.com/article/5003.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源
2024-08-15 21:46:05
智能体A2A落地华为新旗舰,鸿蒙开发者新机遇来了
2025-12-06 12:27:36
特斯拉 Optimus 人形机器人演示时摔倒,手忙脚乱“摘头显”露了馅
2025-12-08 15:33:43
英伟达巧用8B模型秒掉GPT-5,开源了
2025-12-06 14:32:11
2025 日本国际机器人展闭幕,中国企业占据人形机器人半壁江山
2025-12-07 22:51:22
马斯克“太空AI”设想:每年发射1百万吨AI卫星、建设月球卫星工厂
2025-12-08 16:37:25
机器人集体到香港户外自主极限挑战,四足比人形强
2025-12-08 15:34:35
众擎完成 A1+ 轮与 A2 轮融资,机器人 T800 全面启动规模化发售
2025-12-08 16:37:00
河南“十五五”规划建议:全面实施“人工智能+”行动 建设重点行业领域垂直大模型
2025-12-08 08:15:51
广西“十五五”规划建议:高标准建设中国—东盟国家人工智能应用合作中心
2025-12-07 10:23:39
英伟达AMD难受了!美国欲推动新法案:全面禁止高端AI芯片对华出口
2025-12-08 13:28:50
国家医保数字人“医小保”介绍商保目录:19款药品入选 9个为1类新药
2025-12-07 13:30:59
山东省“十五五”规划建议:大力推进人工智能创新应用 支持创建一批国家人工智能应用中试基地
2025-12-08 09:22:21
24小时热文
更多
扫一扫体验小程序