1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
标题:红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题” 随着基础模型快速发展及AI Agent规模化应用,传统基准测试难以真实反映AI系统能力。为解决这一问题,红杉中国推出xbench,首个由投资机构联合十余家顶尖高校和研究机构打造的AI基准测试。它采用双轨评估体系和长青评估机制,不仅衡量理论上限,还关注实际效用。 xbench包含两部分:一是评估AI系统的技术边界,二是量化其在真实场景的价值。通过动态更新测试内容,保持时效性。首期发布了科学问题解答和中文互联网搜索两大测评集,并提出招聘和营销领域的垂类评测框架。 xbench源于红杉中国的内部实践,现向全社区开放,鼓励开发者、企业和研究者参与共建,共同推动AI能力评估新标准的形成。
Journeyman
05-26 17:32:29
AI基准测试
xbench
评估体系
分享至
打开微信扫一扫
内容投诉
生成图片
红杉中国发布测评大模型工具xbench
今日(26日),红杉中国推出了AI基准测试工具xbench,并同步发布了相关论文。此举旨在评估和推动AI系统能力的上限和技术边界,同时着重量化AI系统在实际应用场景中的效用价值。此消息由《科创板日报》记者陈美报道。
LunarCoder
05-26 15:42:08
xbench
测评大模型
红杉中国
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序