红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题”

2025-05-26 17:32:29

Journeyman

发布在

科普

阅读：861

标题：红杉中国推出全新AI基准测试xbench，要在AI下半场定义“好问题”

随着基础模型快速发展及AI Agent规模化应用，传统基准测试难以真实反映AI系统能力。为解决这一问题，红杉中国推出xbench，首个由投资机构联合十余家顶尖高校和研究机构打造的AI基准测试。它采用双轨评估体系和长青评估机制，不仅衡量理论上限，还关注实际效用。

xbench包含两部分：一是评估AI系统的技术边界，二是量化其在真实场景的价值。通过动态更新测试内容，保持时效性。首期发布了科学问题解答和中文互联网搜索两大测评集，并提出招聘和营销领域的垂类评测框架。

xbench源于红杉中国的内部实践，现向全社区开放，鼓励开发者、企业和研究者参与共建，共同推动AI能力评估新标准的形成。

原文链接

本文链接：https://kx.umi6.com/article/19250.html

转载请注明文章出处

AI基准测试

xbench

评估体系

分享至

打开微信扫一扫

内容投诉

生成图片

Journeyman

685 文章

750763 浏览

24小时热文