2025年10月20日,美团LongCat团队发布智能体评测基准VitaBench,号称高度贴近真实生活场景。该基准聚焦外卖点餐、餐厅就餐和旅游出行三大高频场景,构建了包含66个工具的交互式评测环境,并设计跨场景综合任务。例如,在旅游规划中,要求智能体完成从购票到订餐的全过程。团队首次从深度推理、工具使用与用户交互三个维度量化复杂问题,发现领先模型在复杂跨场景任务中的成功率仅30%,揭示现有智能体与实际需求的差距。VitaBench已全面开源,为智能体研发提供基础设施,项目主页、论文、代码及数据集均已公开。
原文链接
本文链接:https://kx.umi6.com/article/26983.html
转载请注明文章出处
相关推荐
换一换
美团 LongCat 团队发布 Agent 评测基准“VitaBench”,号称“高度贴近真实生活场景”
2025-10-20 18:11:29
千问App发布2025十大AI提示词 股票位列榜首
2025-12-22 10:45:18
智谱AI,排名「第二」
2025-12-21 12:41:26
翰宇药业参股碳云智肽 深化AI多肽药物开发与产业化协同
2025-12-22 09:35:08
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
2025-12-22 13:45:27
消息称 OpenAI 算力利润率攀升至 70%,相比去年底大幅增长
2025-12-22 07:26:28
上海钢联朱军红:未来工业生产的底层逻辑将发生根本性改变
2025-12-21 21:06:06
智谱港股 IPO 获中国证监会备案,冲刺“全球大模型第一股”
2025-12-22 21:01:52
关注科技与红利资产 机构看好2026年A股结构性机会
2025-12-22 08:31:58
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山
2025-12-21 11:37:27
明年手机 PC 全线涨价,这个锅,AI 必须得背
2025-12-22 10:38:18
天下苦SaaS已久,企业级AI得靠「结果」说话
2025-12-22 14:47:07
上海博士破解裸眼3D显示技术难题:通过AI驱动引擎解决眩晕不适感
2025-12-22 17:55:58
645 文章
428780 浏览
24小时热文
更多
-
2025-12-23 00:09:56 -
2025-12-23 00:08:48 -
2025-12-22 23:07:36