1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年10月20日,美团LongCat团队发布智能体评测基准VitaBench,号称高度贴近真实生活场景。该基准聚焦外卖点餐、餐厅就餐和旅游出行三大高频场景,构建了包含66个工具的交互式评测环境,并设计跨场景综合任务。例如,在旅游规划中,要求智能体完成从购票到订餐的全过程。团队首次从深度推理、工具使用与用户交互三个维度量化复杂问题,发现领先模型在复杂跨场景任务中的成功率仅30%,揭示现有智能体与实际需求的差距。VitaBench已全面开源,为智能体研发提供基础设施,项目主页、论文、代码及数据集均已公开。

原文链接
本文链接:https://kx.umi6.com/article/26983.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
美团 LongCat 团队发布 Agent 评测基准“VitaBench”,号称“高度贴近真实生活场景”
2025-10-20 18:11:29
用 ChatGPT 生成号码,美国女子中 10 万美元彩票大奖
2025-10-20 10:03:50
《最终幻想》作曲家植松伸夫:从未用过 AI,大概永远都不会使用
2025-10-20 10:04:41
LSTM之父向何恺明开炮:我学生才是残差学习奠基人
2025-10-19 22:54:26
古尔曼:iOS 26.4内部测试中的新版Siri表现不尽人意
2025-10-20 12:04:54
蚂蚁集团百灵万亿参数模型「Ling-1T」上架华为云,支持专属资源部署
2025-10-18 20:38:01
第三期人工智能能力建设研讨班在上海举行
2025-10-20 18:13:46
AI牛市还没完?知名科技分析师:这三只大型科技股将领涨“下一阶段”!
2025-10-20 15:12:16
市值蒸发千亿后,要如何绝地反击?
2025-10-20 17:11:21
破局算力浪费 阿里云AI成果入选顶会 GPU用量削减82%
2025-10-18 22:39:35
OpenAI 今年推出 GPT - 6?员工否认
2025-10-19 07:43:54
英伟达的又一场「阳谋」
2025-10-19 15:53:49
DeepSeek又发新模型,小而美玩出新高度
2025-10-20 21:14:11
24小时热文
更多
扫一扫体验小程序