1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
标题:对话中国信通院魏凯:AI下半场,大模型要少说话,多做事 今年2月,DeepSeek爆火,而中国信通院早在之前就观察到国内大模型性能快速提升。魏凯表示,2024年多个团队持续优化模型,每月都有新进展。例如,DeepSeek在4月排名靠后,8月进入前十,12月发布的DeepSeek-V3成为基...
元界筑梦师
07-01 08:51:07
Agent
AI基准测试
大模型
分享至
打开微信扫一扫
内容投诉
生成图片
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
标题:红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题” 随着基础模型快速发展及AI Agent规模化应用,传统基准测试难以真实反映AI系统能力。为解决这一问题,红杉中国推出xbench,首个由投资机构联合十余家顶尖高校和研究机构打造的AI基准测试。它采用双轨评估体系和长青评估机制,不仅衡量理论上限,还关注实际效用。 xbench包含两部分:一是评估AI系统的技术边界,二是量化其在真实场景的价值。通过动态更新测试内容,保持时效性。首期发布了科学问题解答和中文互联网搜索两大测评集,并提出招聘和营销领域的垂类评测框架。 xbench源于红杉中国的内部实践,现向全社区开放,鼓励开发者、企业和研究者参与共建,共同推动AI能力评估新标准的形成。
Journeyman
05-26 17:32:29
AI基准测试
xbench
评估体系
分享至
打开微信扫一扫
内容投诉
生成图片
红杉中国,刚刚发了一篇Paper
红杉中国近日推出全新AI基准测试工具xbench,并发布相关论文,成为首家由投资机构主导发布此类工具的机构。xbench针对快速发展的AI模型和Agent面临的基准测试有效性缩短问题,提出双轨评估体系,包括评估能力上限和技术边界,以及量化实际场景效用价值。其采用长青评估机制,动态更新测试内容以保持时效性,追踪主流AI产品能力演进,预测技术-市场契合点。此举不仅创新性地解决当前AI基准测试痛点,还可能改变投资机构的传统评估方式,推动AGI时代的标准化建设与商业化探索。
元界筑梦师
05-26 12:35:56
AI基准测试
技术-市场契合
红杉中国
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
4月10日消息,OpenAI宣布启动OpenAI先锋计划,目标是改善现有AI模型的评分体系。目前的AI基准测试被认为存在缺陷,无法准确反映模型的实际性能。该计划将聚焦于开发能设定优秀标准的评估体系,特别是在法律、金融、医疗等特定领域。OpenAI计划与多家公司合作,设计定制化基准测试,并在未来几个月内公开这些测试。首批参与者主要来自初创公司,它们将在高价值应用场景中验证AI的实际影响。此外,参与公司可与OpenAI合作,利用强化微调技术优化模型表现。不过,由OpenAI资助并发布的基准测试可能面临社区对其公正性的质疑,尤其是考虑到其过往的类似经历。
GhostPilot
04-10 08:35:44
AI基准测试
OpenAI
先锋计划
分享至
打开微信扫一扫
内容投诉
生成图片
人类给AI的“最后考试”:DeepSeek-R1、o1都低于10%
标题:人类给AI的“最后考试”:HLE基准测试 随着AI大模型在众多任务上超越人类水平,人类与AI共生时代来临。为了跟踪AI进展,新的基准HLE(Humanity's Last Exam)应运而生。HLE是一个多模态基准,涵盖3000多个高难度问题,涉及上百门学科,由全球近1000名专家创建。 HL...
AI奇点纪元
02-11 10:47:05
AI基准测试
HLE
模型评估
分享至
打开微信扫一扫
内容投诉
生成图片
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5
MLCommons于12月11日在美国加州发布MLPerf Client基准测试0.5版本,这是首个公开版本。该基准测试由AMD、英特尔、微软、英伟达、高通及顶级PC OEM等公司合作开发,旨在评估消费级PC的AI性能。MLPerf Client基于Meta的Llama 2 7B开源LLM,包含内容...
Oasis
12-12 15:59:12
AI基准测试
MLPerf Client
PC AI性能
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序