大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

2025-05-06 14:51:42

量子思考者

发布在

科普

阅读：982

标题：大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

你以为大模型已经能轻松“上网冲浪”了？全新基准测试集BrowseComp-ZH直接打脸主流AI。这项由港科大（广州）、北大、浙大、阿里、字节跳动、NIO等机构联合发布的测试集，让20多个中外主流大模型集体“挂科”。其中，GPT-4o准确率仅6.2%，多数国产/国际模型准确率跌破10%，就连表现最好的OpenAI DeepResearch也仅得42.9%。

BrowseComp-ZH通过“逆向设计法”，从明确答案出发，构造复杂问题，确保百度、Bing、Google三大搜索引擎无法直接命中答案，且主流大模型难以直接答对。最终，测试集包含289道高难度中文多跳检索题，覆盖影视、艺术、医学等11大领域。

测试结果显示，多数模型准确率低于10%，仅少数突破20%。研究者指出，模型需具备多跳推理与信息整合能力，才能应对中文互联网的复杂检索任务。此外，测试还揭示四大发现：仅靠记忆不可行、推理能力至关重要、多轮检索优于单次、搜索功能并非越多越好。

BrowseComp-ZH数据已开源，研究者期待推动LLM在中文信息环境中的应用。未来，他们计划扩充样本规模并分析模型推理路径与失败案例。

原文链接

本文链接：https://kx.umi6.com/article/18181.html

转载请注明文章出处

中文网页检索