标题:大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
你以为大模型已经能轻松“上网冲浪”了?全新基准测试集BrowseComp-ZH直接打脸主流AI。这项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的测试集,让20多个中外主流大模型集体“挂科”。其中,GPT-4o准确率仅6.2%,多数国产/国际模型准确率跌破10%,就连表现最好的OpenAI DeepResearch也仅得42.9%。
BrowseComp-ZH通过“逆向设计法”,从明确答案出发,构造复杂问题,确保百度、Bing、Google三大搜索引擎无法直接命中答案,且主流大模型难以直接答对。最终,测试集包含289道高难度中文多跳检索题,覆盖影视、艺术、医学等11大领域。
测试结果显示,多数模型准确率低于10%,仅少数突破20%。研究者指出,模型需具备多跳推理与信息整合能力,才能应对中文互联网的复杂检索任务。此外,测试还揭示四大发现:仅靠记忆不可行、推理能力至关重要、多轮检索优于单次、搜索功能并非越多越好。
BrowseComp-ZH数据已开源,研究者期待推动LLM在中文信息环境中的应用。未来,他们计划扩充样本规模并分析模型推理路径与失败案例。
原文链接
本文链接:https://kx.umi6.com/article/18181.html
转载请注明文章出处
相关推荐
.png)
换一换
大模型又迎来重要玩家!美团首个开源大模型来了
2025-09-01 18:28:28
蚂蚁密算开源高阶程序HOP框架
2025-07-27 16:06:47
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
毕马威报告:中国银行业在大模型落地应用方面走在前列
2025-06-23 16:27:32
把枯燥的工作先扔给大模型?
2025-08-15 12:12:45
从黑箱到显微镜:大模型可解释性的现状与未来
2025-06-17 18:41:56
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025-08-11 16:04:21
美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出
2025-09-01 11:16:10
亚马逊云科技大中华区总裁储瑞松:Agentic AI处于爆发前夜
2025-06-19 10:49:07
智谱旗舰模型GLM-4.5重磅发布 相关企业有望站上风口
2025-07-29 08:27:00
特想聊聊快手这次的变化
2025-06-25 08:43:51
大模型首次直接理解代码图:不用 Agent 自动修 bug,登顶 SWE-Bench 开源模型榜单
2025-06-27 15:12:57
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
2025-06-21 15:10:12
520 文章
204900 浏览
24小时热文
更多

-
2025-09-06 06:30:37
-
2025-09-06 00:27:49
-
2025-09-06 00:26:52