苹果团队最新发布的开源成果——名为ToolSandbox的模型工具调用能力评估基准,采用创新的场景化测评方法,旨在更好地展现模型在真实环境中的水平。该基准引入了对话交互、状态依赖等传统标准未覆盖的重要场景,显著提高了评估的全面性和实用性。ToolSandbox通过让GPT-4o扮演用户与模型进行交互,模拟真实世界中的场景,进一步增强了测试的真实感。在测试中,闭源模型整体表现优于开源模型,其中GPT-4o在各项指标上均表现出色,尤其在鲁棒性和效率方面。开源模型在识别何时调用工具方面存在不足,更倾向于将问题视为文本生成任务。这一研究不仅揭示了大模型在工具使用方面的现状和挑战,也为未来模型的优化和发展提供了宝贵的方向。ToolSandbox的作者团队由来自苹果公司的多位资深专家组成,其中不乏来自清华和卡内基梅隆大学的华人学者,体现了苹果在人工智能领域的深厚技术积累和国际视野。这一成果不仅丰富了模型评估的标准和方法,也为业界提供了有价值的参考,有望推动模型工具调用能力的提升,特别是对于iOS应用开发者而言,具有重要的实践意义。
原文链接
本文链接:https://kx.umi6.com/article/5003.html
转载请注明文章出处
相关推荐
.png)
换一换
被曝裁员、清空社交账号后,Manus 首度发布技术博客总结经验教训
2025-07-19 16:54:40
OpenAI 史上最强 ChatGPT 智能体发布:浏览网站、写代码、做 PPT 样样精通
2025-07-18 01:31:21
工信部:推动工业互联网与人工智能协同赋能 加快推进6G技术研发
2025-07-18 15:41:53
453 文章
63421 浏览
24小时热文
更多

-
2025-07-20 08:01:35
-
2025-07-19 22:57:32
-
2025-07-19 21:58:20