苹果团队最新发布的开源成果——名为ToolSandbox的模型工具调用能力评估基准,采用创新的场景化测评方法,旨在更好地展现模型在真实环境中的水平。该基准引入了对话交互、状态依赖等传统标准未覆盖的重要场景,显著提高了评估的全面性和实用性。ToolSandbox通过让GPT-4o扮演用户与模型进行交互,模拟真实世界中的场景,进一步增强了测试的真实感。在测试中,闭源模型整体表现优于开源模型,其中GPT-4o在各项指标上均表现出色,尤其在鲁棒性和效率方面。开源模型在识别何时调用工具方面存在不足,更倾向于将问题视为文本生成任务。这一研究不仅揭示了大模型在工具使用方面的现状和挑战,也为未来模型的优化和发展提供了宝贵的方向。ToolSandbox的作者团队由来自苹果公司的多位资深专家组成,其中不乏来自清华和卡内基梅隆大学的华人学者,体现了苹果在人工智能领域的深厚技术积累和国际视野。这一成果不仅丰富了模型评估的标准和方法,也为业界提供了有价值的参考,有望推动模型工具调用能力的提升,特别是对于iOS应用开发者而言,具有重要的实践意义。
原文链接
本文链接:https://kx.umi6.com/article/5003.html
转载请注明文章出处
相关推荐
.png)
换一换
苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源
2024-08-15 21:46:05
3800亿再加码,阿里还有多少家底?
2025-09-25 16:06:40
京东CEO许冉: 未来三年持续投入带动万亿人工智能生态规模
2025-09-25 11:05:34
阿里云宣布通义完成安全升级
2025-09-25 18:09:38
海内外AI叙事共振强化 资金共识聚焦港股科技行情
2025-09-25 16:10:09
SAP和OpenAI宣布合作 计划推出”德国版OpenAI”
2025-09-24 19:51:45
业内人士:OpenAI与甲骨文和英伟达合作形成商业闭环
2025-09-24 18:51:20
从机器视觉到具身智能 AI与工业迎来双向奔赴|2025工博会侧记
2025-09-25 07:57:48
京东探索研究院升级,刘强东将亲自担任院长
2025-09-25 12:01:58
爱奇艺:将推出国内首个AI剧场 明年将上线首批AI叙事影片
2025-09-25 19:13:14
我的脸,被AI公司用1.4万元「买断」了
2025-09-25 16:07:49
富国银行力挺“AI牛市”:并非泡沫,涨势有望持续下去!
2025-09-25 17:08:56
科技巨头对AI有多狂热?扎克伯格:宁愿浪费几千亿,也不愿错过!
2025-09-25 08:58:13
530 文章
208752 浏览
24小时热文
更多

-
2025-09-26 08:21:58
-
2025-09-26 08:21:08
-
2025-09-26 08:20:53