2025年10月20日,美团LongCat团队发布智能体评测基准VitaBench,号称高度贴近真实生活场景。该基准聚焦外卖点餐、餐厅就餐和旅游出行三大高频场景,构建了包含66个工具的交互式评测环境,并设计跨场景综合任务。例如,在旅游规划中,要求智能体完成从购票到订餐的全过程。团队首次从深度推理、工具使用与用户交互三个维度量化复杂问题,发现领先模型在复杂跨场景任务中的成功率仅30%,揭示现有智能体与实际需求的差距。VitaBench已全面开源,为智能体研发提供基础设施,项目主页、论文、代码及数据集均已公开。
原文链接
本文链接:https://kx.umi6.com/article/26983.html
转载请注明文章出处
相关推荐
换一换
美团 LongCat 团队发布 Agent 评测基准“VitaBench”,号称“高度贴近真实生活场景”
2025-10-20 18:11:29
超智算智能算力中心揭牌暨AI算力设备点亮仪式成功举行
2026-03-06 20:29:36
苹果春季新品奔着龙虾来了!AI性能暴涨8倍,8499元起
2026-03-04 16:53:49
李开复谈OpenClaw:今年是“企业多智能体上岗”元年
2026-03-06 15:13:08
中国信通院:截至2025年6月我国计算设备智能算力规模达到782 EFlops 同比增长96%
2026-03-06 14:07:35
政府工作报告:促进新一代智能终端和智能体加快推广
2026-03-05 10:08:07
软银据悉寻求最高400亿美元贷款 用于投资OpenAI
2026-03-06 13:02:04
《政府工作报告》起草组成员陈昌盛:进一步实施建设超大规模的智算集群和算电协同的新型基础设施建设
2026-03-05 16:33:06
因拒绝美军方不受限制地使用其AI模型 美国一科技公司被列入“黑名单”
2026-03-06 20:35:09
防止以假乱真 人大代表建议为AI生成内容添加不可去除水印
2026-03-04 09:26:07
特斯拉最牛散户斥资1.8亿美元买100万股英伟达:力挺AI赛道
2026-03-05 17:38:25
把20亿参数装进胸针?高通补齐了个人AI生态的最后一块拼图
2026-03-04 11:32:43
下载量超1500万次 19岁天才少年做AI应用年入2亿!
2026-03-04 10:31:49
693 文章
526395 浏览
24小时热文
更多
-
2026-03-07 08:16:24 -
2026-03-07 00:49:29 -
2026-03-07 00:48:20