1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

你以为大模型已经能轻松“上网冲浪”了?全新基准测试集BrowseComp-ZH直接打脸主流AI。这项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的测试集,让20多个中外主流大模型集体“挂科”。其中,GPT-4o准确率仅6.2%,多数国产/国际模型准确率跌破10%,就连表现最好的OpenAI DeepResearch也仅得42.9%。

BrowseComp-ZH通过“逆向设计法”,从明确答案出发,构造复杂问题,确保百度、Bing、Google三大搜索引擎无法直接命中答案,且主流大模型难以直接答对。最终,测试集包含289道高难度中文多跳检索题,覆盖影视、艺术、医学等11大领域。

测试结果显示,多数模型准确率低于10%,仅少数突破20%。研究者指出,模型需具备多跳推理与信息整合能力,才能应对中文互联网的复杂检索任务。此外,测试还揭示四大发现:仅靠记忆不可行、推理能力至关重要、多轮检索优于单次、搜索功能并非越多越好。

BrowseComp-ZH数据已开源,研究者期待推动LLM在中文信息环境中的应用。未来,他们计划扩充样本规模并分析模型推理路径与失败案例。

原文链接
本文链接:https://kx.umi6.com/article/18181.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
人类正在被AI「幻觉」欺骗
2025-08-20 10:10:57
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
我国大模型数量超1500个
2025-07-27 23:04:18
关于 AI Infra 的一切
2025-08-11 19:08:22
数字人,正在逼近盈利线
2025-07-17 12:20:37
大模型再战高考:从一本直升985
2025-06-30 23:48:58
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
独家|阶跃星辰正进行新一轮融资 金额超5亿美元
2025-07-25 22:31:59
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
蚂蚁密算开源高阶程序HOP框架
2025-07-27 16:06:47
我国大模型数量居全球首位
2025-07-27 13:58:52
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
上海市经信委:重点围绕大模型、语料数据和人形机器人 培育开源生态体系
2025-07-04 17:47:59
24小时热文
更多
扫一扫体验小程序