1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”

随着基础模型快速发展及AI Agent规模化应用,传统基准测试难以真实反映AI系统能力。为解决这一问题,红杉中国推出xbench,首个由投资机构联合十余家顶尖高校和研究机构打造的AI基准测试。它采用双轨评估体系和长青评估机制,不仅衡量理论上限,还关注实际效用。

xbench包含两部分:一是评估AI系统的技术边界,二是量化其在真实场景的价值。通过动态更新测试内容,保持时效性。首期发布了科学问题解答和中文互联网搜索两大测评集,并提出招聘和营销领域的垂类评测框架。

xbench源于红杉中国的内部实践,现向全社区开放,鼓励开发者、企业和研究者参与共建,共同推动AI能力评估新标准的形成。

原文链接
本文链接:https://kx.umi6.com/article/19250.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
红杉中国,刚刚发了一篇Paper
2025-05-26 12:35:56
“为了全人类,提交你最难的问题”
2025-09-26 07:19:37
人类给AI的“最后考试”:DeepSeek-R1、o1都低于10%
2025-02-11 10:47:05
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
红杉中国发布测评大模型工具xbench
2025-05-26 15:42:08
什么会影响大模型安全?NeurIPS’24新研究提出大模型越狱攻击新基准与评估体系
2024-10-31 15:51:40
牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能
2025-11-06 19:10:49
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
2025-05-26 17:32:29
OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
2025-04-10 08:35:44
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5
2024-12-12 15:59:12
广西“十五五”规划建议:积极发展股权、债券等直接融资 支持上市公司提质
2025-12-07 10:25:53
谷歌 DeepMind CEO 哈萨比斯:规模定律是走向通用人工智能的关键
2025-12-08 09:16:34
用AI图仅退款,这批羊毛党把商家薅麻了
2025-12-08 12:24:10
24小时热文
更多
扫一扫体验小程序