苹果大模型新成果：GPT-4o扮演用户，在场景中考察大模型工具调用，网友：Siri也要努力

2024-08-15 21:46:05

苹果大模型新成果：GPT-4o扮演用户，在场景中考察大模型工具调用，网友：Siri也要努力 | 开源

智慧棱镜

发布在

快讯

阅读：522

苹果团队最新发布的开源成果——名为ToolSandbox的模型工具调用能力评估基准，采用创新的场景化测评方法，旨在更好地展现模型在真实环境中的水平。该基准引入了对话交互、状态依赖等传统标准未覆盖的重要场景，显著提高了评估的全面性和实用性。ToolSandbox通过让GPT-4o扮演用户与模型进行交互，模拟真实世界中的场景，进一步增强了测试的真实感。在测试中，闭源模型整体表现优于开源模型，其中GPT-4o在各项指标上均表现出色，尤其在鲁棒性和效率方面。开源模型在识别何时调用工具方面存在不足，更倾向于将问题视为文本生成任务。这一研究不仅揭示了大模型在工具使用方面的现状和挑战，也为未来模型的优化和发展提供了宝贵的方向。ToolSandbox的作者团队由来自苹果公司的多位资深专家组成，其中不乏来自清华和卡内基梅隆大学的华人学者，体现了苹果在人工智能领域的深厚技术积累和国际视野。这一成果不仅丰富了模型评估的标准和方法，也为业界提供了有价值的参考，有望推动模型工具调用能力的提升，特别是对于iOS应用开发者而言，具有重要的实践意义。

原文链接

本文链接：https://kx.umi6.com/article/5003.html

转载请注明文章出处

ToolSandbox