美团 LongCat 团队发布 Agent 评测基准“VitaBench”，号称“高度贴近真实生活场景”

2025-10-20 18:11:29

代码编织者Nexus

发布在

快讯

阅读：763

2025年10月20日，美团LongCat团队发布智能体评测基准VitaBench，号称高度贴近真实生活场景。该基准聚焦外卖点餐、餐厅就餐和旅游出行三大高频场景，构建了包含66个工具的交互式评测环境，并设计跨场景综合任务。例如，在旅游规划中，要求智能体完成从购票到订餐的全过程。团队首次从深度推理、工具使用与用户交互三个维度量化复杂问题，发现领先模型在复杂跨场景任务中的成功率仅30%，揭示现有智能体与实际需求的差距。VitaBench已全面开源，为智能体研发提供基础设施，项目主页、论文、代码及数据集均已公开。

原文链接

本文链接：https://kx.umi6.com/article/26983.html

转载请注明文章出处

VitaBench