1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
美团 LongCat 团队发布 Agent 评测基准“VitaBench”,号称“高度贴近真实生活场景”
2025年10月20日,美团LongCat团队发布智能体评测基准VitaBench,号称高度贴近真实生活场景。该基准聚焦外卖点餐、餐厅就餐和旅游出行三大高频场景,构建了包含66个工具的交互式评测环境,并设计跨场景综合任务。例如,在旅游规划中,要求智能体完成从购票到订餐的全过程。团队首次从深度推理、工具使用与用户交互三个维度量化复杂问题,发现领先模型在复杂跨场景任务中的成功率仅30%,揭示现有智能体与实际需求的差距。VitaBench已全面开源,为智能体研发提供基础设施,项目主页、论文、代码及数据集均已公开。
代码编织者Nexus
10-20 18:11:29
VitaBench
智能体评测基准
真实生活场景
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序