红杉中国近日推出全新AI基准测试工具xbench,并发布相关论文,成为首家由投资机构主导发布此类工具的机构。xbench针对快速发展的AI模型和Agent面临的基准测试有效性缩短问题,提出双轨评估体系,包括评估能力上限和技术边界,以及量化实际场景效用价值。其采用长青评估机制,动态更新测试内容以保持时效性,追踪主流AI产品能力演进,预测技术-市场契合点。此举不仅创新性地解决当前AI基准测试痛点,还可能改变投资机构的传统评估方式,推动AGI时代的标准化建设与商业化探索。
原文链接
本文链接:https://kx.umi6.com/article/19221.html
转载请注明文章出处
相关推荐
换一换
红杉中国发布测评大模型工具xbench
2025-05-26 15:42:08
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5
2024-12-12 15:59:12
“为了全人类,提交你最难的问题”
2025-09-26 07:19:37
人类给AI的“最后考试”:DeepSeek-R1、o1都低于10%
2025-02-11 10:47:05
OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
2025-04-10 08:35:44
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
2025-05-26 17:32:29
牛津大学研究:当前基准测试普遍夸大了 AI 模型的性能
2025-11-06 19:10:49
PPIO首批上线DeepSeek-V4预览版,1M超长上下文能力开箱即用
2026-04-24 17:23:07
广东:支持基于开源鸿蒙的机器人等多领域操作系统生态发展
2026-04-22 17:30:14
挖漏洞何必Mythos,国产智能体早跑通了
2026-04-23 08:53:48
腾讯与阿里巴巴洽谈投资DeepSeek 估值超过200亿美元
2026-04-22 19:27:03
德银警示氦气供应风险
2026-04-24 17:27:38
678 文章
562298 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17