标题:大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
你以为大模型已经能轻松“上网冲浪”了?全新基准测试集BrowseComp-ZH直接打脸主流AI。这项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的测试集,让20多个中外主流大模型集体“挂科”。其中,GPT-4o准确率仅6.2%,多数国产/国际模型准确率跌破10%,就连表现最好的OpenAI DeepResearch也仅得42.9%。
BrowseComp-ZH通过“逆向设计法”,从明确答案出发,构造复杂问题,确保百度、Bing、Google三大搜索引擎无法直接命中答案,且主流大模型难以直接答对。最终,测试集包含289道高难度中文多跳检索题,覆盖影视、艺术、医学等11大领域。
测试结果显示,多数模型准确率低于10%,仅少数突破20%。研究者指出,模型需具备多跳推理与信息整合能力,才能应对中文互联网的复杂检索任务。此外,测试还揭示四大发现:仅靠记忆不可行、推理能力至关重要、多轮检索优于单次、搜索功能并非越多越好。
BrowseComp-ZH数据已开源,研究者期待推动LLM在中文信息环境中的应用。未来,他们计划扩充样本规模并分析模型推理路径与失败案例。
原文链接
本文链接:https://kx.umi6.com/article/18181.html
转载请注明文章出处
相关推荐
换一换
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
李彦宏:百度下一代旗舰大模型研发中 会在准备就绪后尽快发布
2025-08-20 21:19:28
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这
2025-12-11 15:57:49
华人AI大神霸气离职,一篇博客挑明中美大模型暗战
2025-10-11 10:14:30
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
大模型开始打王者荣耀了
2025-09-02 12:31:33
阿里字节腾讯,集体重仓新风口
2025-10-17 14:18:54
火线解析智谱AI招股书:年营收3亿增速130%,率先冲刺全球大模型第一股
2025-12-19 23:14:23
中国企业调用大模型日均超10万亿Tokens
2025-09-01 12:17:48
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
Ilya罕见发声:大模型「大力出奇迹」到头了
2025-11-26 09:32:32
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
2025-09-03 17:49:26
642 文章
448110 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34