综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
3月26日,中国信息通信研究院联合40余家单位发布具身智能领域首个行业标准,构建统一基准测试框架,推动评测进入“有标可依”新阶段。标准聚焦人工智能基础技术和测试方法,明确系统框架与能力要求,将于2026年6月1日实施。内容涵盖仿真与真实环境下的测试框架、方法及指标,支持基础、认知推理和全链路闭环能力测试,包括静态、动态仿真及真实环境测试。编制过程中同步建设配套资源,现已建成1万多条任务库,覆盖300种任务类型,并开发数据管理、任务生成等工具,确保标准可操作性。(央视新闻)
原文链接
2025年,大模型竞争进入新阶段,但基准测试公信力下降,实际使用常令人失望。业内揭露了基准测试作弊、测试集泄露和排行榜操纵等问题。Scale AI 2024年11月论文显示,许多开源模型在新测试基准下的表现大幅下滑。Cohere 2025年4月指出知名评测平台偏向大公司,Meta等私下多次测试模型。此外,数据集污染和刷榜现象普遍,导致基准测试不再反映真实性能,成为厂商营销工具。专家认为现有基准测试体系存在结构性缺陷,过于静态和单一化。新的动态测试集逐渐兴起,企业更多依赖私有基准测试集,关注模型稳定性、迭代速度和开源程度。赵海教授指出,未来AGI系统将无需依赖人工标注,而主流大模型的核心问题仍是幻觉和指令遵循能力。
原文链接
标题:LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
随着推理大模型和思维链的普及,AI在复杂任务中的表现大幅提升,但也逐渐暴露出一个问题:它常常把简单任务复杂化。AI领域专家Andrej Karpathy对此现象表示无奈,指出当前大模型在默认状态下过于“自主代理化”,...
原文链接
8月1日,谷歌正式发布Gemini 2.5 Deep Think模型,现已向Google AI Ultra订阅用户开放。该模型在多个基准测试中超越OpenAI的o3和xAI的Grok 4,性能显著提升。Deep Think模式可在作答前综合多个假设进行推理,并集成代码执行与谷歌搜索等功能。谷歌透露,该模型是此前在国际数学奥林匹克竞赛中获金牌模型的优化变体,虽经加速优化,但在2025年IMO基准测试中仅达铜牌水平。目前,用户可在Gemini应用中限定次数使用Deep Think功能,未来几周还将通过Gemini API向开发者提供不同版本。
原文链接
标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。
最新研究论文《LIFEB...
原文链接
标题:GPT-4o不敌Qwen,无一模型及格!UC伯克利等提出多模态新基准
多视图理解推理有了新的评判标准!多视图理解指从不同视角整合视觉信息以实现理解决策。例如,机器人需根据多摄像头画面判断物体位置、距离和运动方向。然而,由于缺乏评估基准,该领域研究进展缓慢。
UC伯克利、忆生科技、香港大学等...
原文链接
北京时间4月17日,OpenAI发布多模态推理大模型o3,自称性能超越行业对手。然而,研究机构Epoch AI的第三方测试显示,o3在FrontierMath上的得分仅为10%,远低于OpenAI此前宣称的25%。Epoch AI认为,双方测试差异可能源于评估框架、测试时间和数据集的不同。此外,ARC Prize Foundation称公开版o3经过优化,性能不及预发布版本。基准测试争议正成为AI行业常态,近期xAI和Meta的模型也面临类似质疑。
原文链接
4月21日,OpenAI的o3模型基准测试成绩遭质疑。去年12月,OpenAI宣称o3能在FrontierMath上正确回答超25%的问题,远超对手。但Epoch研究所的独立测试显示,公开版o3得分仅约10%,低于预期。OpenAI称其高分基于更强计算资源,而Epoch认为测试设置或评估版本不同导致差异。ARC Prize基金会证实公开版o3为调整版,性能较测试版弱。尽管如此,后续o3衍生模型表现更优,OpenAI计划推出更强版本o3-pro。此事凸显AI基准测试的不确定性,类似争议在行业内愈发常见。
原文链接
近日,随着AI推理模型的兴起,基准测试成本显著上升。据第三方机构“人工智能分析”数据,评估OpenAI的o1推理模型需花费2767.05美元,远高于非推理模型GPT-4o的108.85美元。类似地,Anthropic的Claude 3.7 Sonnet测试成本为1485.35美元,而其非推理版本仅需81.41美元。高昂的成本主要源于推理模型生成大量token,且现代基准测试更复杂,涉及多步骤任务。例如,OpenAI的o1生成超4400万个token,是GPT-4o的八倍。尽管模型性能提升,测试成本仍居高不下。AI初创公司“通用推理”的CEO罗斯·泰勒指出,MMLU Pro测试单次成本已超1800美元。专家警告,免费或补贴的模型测试可能影响评估公正性。截至发稿,相关机构正计划扩大测试预算以应对这一挑战。
原文链接
【财联社4月11日电】国际电信联盟电信标准分局(ITU-T)近日正式发布了一项关于基础模型评估的标准:ITU-T F.748.44《基础模型的评估标准:基准测试》。该标准由amp;中国信息通信研究院牵头制定,明确了大模型基准测试的指标要求与测试方法,为全球大模型技术发展提供了重要参考。这项标准的发布标志着我国在大模型领域的标准化工作取得了新突破,具有重要的国际影响力。
原文链接
加载更多
暂无内容