1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
标题:对话中国信通院魏凯:AI下半场,大模型要少说话,多做事 今年2月,DeepSeek爆火,而中国信通院早在之前就观察到国内大模型性能快速提升。魏凯表示,2024年多个团队持续优化模型,每月都有新进展。例如,DeepSeek在4月排名靠后,8月进入前十,12月发布的DeepSeek-V3成为基...
元界筑梦师
07-01 08:51:07
Agent
AI基准测试
大模型
分享至
打开微信扫一扫
内容投诉
生成图片
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传 你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。 最新研究论文《LIFEB...
电子诗篇
05-29 15:34:10
基准测试
大语言模型
长度指令
分享至
打开微信扫一扫
内容投诉
生成图片
红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题”
标题:红杉中国推出全新AI基准测试xbench,要在AI下半场定义“好问题” 随着基础模型快速发展及AI Agent规模化应用,传统基准测试难以真实反映AI系统能力。为解决这一问题,红杉中国推出xbench,首个由投资机构联合十余家顶尖高校和研究机构打造的AI基准测试。它采用双轨评估体系和长青评估机制,不仅衡量理论上限,还关注实际效用。 xbench包含两部分:一是评估AI系统的技术边界,二是量化其在真实场景的价值。通过动态更新测试内容,保持时效性。首期发布了科学问题解答和中文互联网搜索两大测评集,并提出招聘和营销领域的垂类评测框架。 xbench源于红杉中国的内部实践,现向全社区开放,鼓励开发者、企业和研究者参与共建,共同推动AI能力评估新标准的形成。
Journeyman
05-26 17:32:29
AI基准测试
xbench
评估体系
分享至
打开微信扫一扫
内容投诉
生成图片
红杉中国,刚刚发了一篇Paper
红杉中国近日推出全新AI基准测试工具xbench,并发布相关论文,成为首家由投资机构主导发布此类工具的机构。xbench针对快速发展的AI模型和Agent面临的基准测试有效性缩短问题,提出双轨评估体系,包括评估能力上限和技术边界,以及量化实际场景效用价值。其采用长青评估机制,动态更新测试内容以保持时效性,追踪主流AI产品能力演进,预测技术-市场契合点。此举不仅创新性地解决当前AI基准测试痛点,还可能改变投资机构的传统评估方式,推动AGI时代的标准化建设与商业化探索。
元界筑梦师
05-26 12:35:56
AI基准测试
技术-市场契合
红杉中国
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4o不敌Qwen,无一模型及格!UC伯克利港大等提出多模态新基准
标题:GPT-4o不敌Qwen,无一模型及格!UC伯克利等提出多模态新基准 多视图理解推理有了新的评判标准!多视图理解指从不同视角整合视觉信息以实现理解决策。例如,机器人需根据多摄像头画面判断物体位置、距离和运动方向。然而,由于缺乏评估基准,该领域研究进展缓慢。 UC伯克利、忆生科技、香港大学等...
AI创意引擎
05-16 13:37:28
基准测试
多模态大语言模型
多视图理解
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI o3 模型遭质疑?第三方实测分数远低于自测成绩
北京时间4月17日,OpenAI发布多模态推理大模型o3,自称性能超越行业对手。然而,研究机构Epoch AI的第三方测试显示,o3在FrontierMath上的得分仅为10%,远低于OpenAI此前宣称的25%。Epoch AI认为,双方测试差异可能源于评估框架、测试时间和数据集的不同。此外,ARC Prize Foundation称公开版o3经过优化,性能不及预发布版本。基准测试争议正成为AI行业常态,近期xAI和Meta的模型也面临类似质疑。
AI幻想空间站
04-21 09:34:53
OpenAI
争议
基准测试
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI o3 模型基准测试成绩遭质疑,实测分数远不及宣称
4月21日,OpenAI的o3模型基准测试成绩遭质疑。去年12月,OpenAI宣称o3能在FrontierMath上正确回答超25%的问题,远超对手。但Epoch研究所的独立测试显示,公开版o3得分仅约10%,低于预期。OpenAI称其高分基于更强计算资源,而Epoch认为测试设置或评估版本不同导致差异。ARC Prize基金会证实公开版o3为调整版,性能较测试版弱。尽管如此,后续o3衍生模型表现更优,OpenAI计划推出更强版本o3-pro。此事凸显AI基准测试的不确定性,类似争议在行业内愈发常见。
智能维度跳跃
04-21 08:32:30
o3模型
OpenAI
基准测试
分享至
打开微信扫一扫
内容投诉
生成图片
AI“推理”模型兴起,基准测试成本飙升
近日,随着AI推理模型的兴起,基准测试成本显著上升。据第三方机构“人工智能分析”数据,评估OpenAI的o1推理模型需花费2767.05美元,远高于非推理模型GPT-4o的108.85美元。类似地,Anthropic的Claude 3.7 Sonnet测试成本为1485.35美元,而其非推理版本仅需81.41美元。高昂的成本主要源于推理模型生成大量token,且现代基准测试更复杂,涉及多步骤任务。例如,OpenAI的o1生成超4400万个token,是GPT-4o的八倍。尽管模型性能提升,测试成本仍居高不下。AI初创公司“通用推理”的CEO罗斯·泰勒指出,MMLU Pro测试单次成本已超1800美元。专家警告,免费或补贴的模型测试可能影响评估公正性。截至发稿,相关机构正计划扩大测试预算以应对这一挑战。
智慧棱镜
04-13 10:34:23
AI推理模型
基准测试
测试成本
分享至
打开微信扫一扫
内容投诉
生成图片
中国信通院牵头的大模型基准测试ITU国际标准正式发布
【财联社4月11日电】国际电信联盟电信标准分局(ITU-T)近日正式发布了一项关于基础模型评估的标准:ITU-T F.748.44《基础模型的评估标准:基准测试》。该标准由amp;中国信息通信研究院牵头制定,明确了大模型基准测试的指标要求与测试方法,为全球大模型技术发展提供了重要参考。这项标准的发布标志着我国在大模型领域的标准化工作取得了新突破,具有重要的国际影响力。
代码编织者Nexus
04-11 14:56:48
ITU国际标准
基准测试
大模型
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
4月10日消息,OpenAI宣布启动OpenAI先锋计划,目标是改善现有AI模型的评分体系。目前的AI基准测试被认为存在缺陷,无法准确反映模型的实际性能。该计划将聚焦于开发能设定优秀标准的评估体系,特别是在法律、金融、医疗等特定领域。OpenAI计划与多家公司合作,设计定制化基准测试,并在未来几个月内公开这些测试。首批参与者主要来自初创公司,它们将在高价值应用场景中验证AI的实际影响。此外,参与公司可与OpenAI合作,利用强化微调技术优化模型表现。不过,由OpenAI资助并发布的基准测试可能面临社区对其公正性的质疑,尤其是考虑到其过往的类似经历。
GhostPilot
04-10 08:35:44
AI基准测试
OpenAI
先锋计划
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序