1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

苹果团队最新发布的开源成果——名为ToolSandbox的模型工具调用能力评估基准,采用创新的场景化测评方法,旨在更好地展现模型在真实环境中的水平。该基准引入了对话交互、状态依赖等传统标准未覆盖的重要场景,显著提高了评估的全面性和实用性。ToolSandbox通过让GPT-4o扮演用户与模型进行交互,模拟真实世界中的场景,进一步增强了测试的真实感。在测试中,闭源模型整体表现优于开源模型,其中GPT-4o在各项指标上均表现出色,尤其在鲁棒性和效率方面。开源模型在识别何时调用工具方面存在不足,更倾向于将问题视为文本生成任务。这一研究不仅揭示了大模型在工具使用方面的现状和挑战,也为未来模型的优化和发展提供了宝贵的方向。ToolSandbox的作者团队由来自苹果公司的多位资深专家组成,其中不乏来自清华和卡内基梅隆大学的华人学者,体现了苹果在人工智能领域的深厚技术积累和国际视野。这一成果不仅丰富了模型评估的标准和方法,也为业界提供了有价值的参考,有望推动模型工具调用能力的提升,特别是对于iOS应用开发者而言,具有重要的实践意义。

原文链接
本文链接:https://kx.umi6.com/article/5003.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源
2024-08-15 21:46:05
OpenAI:将自行承担“星际之门”项目能源费用,确保不会推高电价
2026-01-21 13:12:22
端侧AI下半场,从跑起来到会思考
2026-01-21 15:15:34
深圳芯片「夫妻店」赴港IPO
2026-01-21 15:14:19
2026开年最该来的AI神仙局,就在崇礼太舞小镇
2026-01-21 15:13:07
亚马逊推出医疗保健工具Health AI
2026-01-22 14:58:16
上海智能制造行业沙龙暨VENTURE50路演日成功举办
2026-01-21 16:17:17
Airwallex 空中云汇收购韩国持牌支付公司 Paynuri
2026-01-21 13:11:13
事关AI聊天机器人和自动驾驶!马斯克和奥尔特曼隔空互喷
2026-01-21 20:25:45
最新调仓路径显现 基金经理关注确定性与安全边际
2026-01-22 07:43:21
卢宗青团队新作:人类先验打底,统一动作对齐,通用机器人模型正在落地
2026-01-22 17:03:53
马斯克:人工智能部署的限制因素是电力供应
2026-01-23 00:20:44
全球首个AI美女演员诞生!星爵演员破大防怒喷
2026-01-21 23:30:59
24小时热文
更多
扫一扫体验小程序