2025年10月20日,美团LongCat团队发布智能体评测基准VitaBench,号称高度贴近真实生活场景。该基准聚焦外卖点餐、餐厅就餐和旅游出行三大高频场景,构建了包含66个工具的交互式评测环境,并设计跨场景综合任务。例如,在旅游规划中,要求智能体完成从购票到订餐的全过程。团队首次从深度推理、工具使用与用户交互三个维度量化复杂问题,发现领先模型在复杂跨场景任务中的成功率仅30%,揭示现有智能体与实际需求的差距。VitaBench已全面开源,为智能体研发提供基础设施,项目主页、论文、代码及数据集均已公开。
原文链接
本文链接:https://kx.umi6.com/article/26983.html
转载请注明文章出处
相关推荐
换一换
工信部启动人工智能科技伦理审查与服务先导计划 加快推动审查工作落地实施
2026-05-09 16:30:49
三部门:力争到2030年 人工智能算力设施的清洁能源供给保障能力和能源领域人工智能应用水平大幅提升
2026-05-08 17:30:58
美图RoboNeo全新升级:首创影像创作Agent Teams
2026-05-09 18:28:34
Anthropic出手!AI的内心独白,曝光了
2026-05-08 15:22:45
百度发布文心 5.1:搜索能力登顶国内,预训练成本仅为业界 6%
2026-05-09 12:11:26
小鹏否认被约谈立案 称相关信息系通过AI恶意炒作
2026-05-09 12:14:34
每日互动:一季度公司AI相关业务收入已接近去年全年水平
2026-05-08 11:14:52
全国首款 上海研发的医疗大模型产品进入国家创新医疗器械特别审查通道
2026-05-07 19:36:56
AI ASIC收入预期翻倍!联发科不止押注手机芯片,正转向AI基础设施提供商
2026-05-08 17:29:54
美国拟定人工智能安全行政令 未纳入强制性AI模型测试要求
2026-05-09 03:54:48
阶跃星辰将完成近25亿美元融资 加速冲刺港股IPO
2026-05-08 10:12:38
安克创新等成立熠身科技公司 含AI及机器人业务
2026-05-08 14:23:12
商务部:正与各方共同研究推进多项合作倡议 用好APEC合作机制共享数字经济红利
2026-05-09 16:25:22
738 文章
653998 浏览
24小时热文
更多
-
2026-05-09 21:38:59 -
2026-05-09 21:35:54 -
2026-05-09 20:36:41