标题:大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
你以为大模型已经能轻松“上网冲浪”了?全新基准测试集BrowseComp-ZH直接打脸主流AI。这项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的测试集,让20多个中外主流大模型集体“挂科”。其中,GPT-4o准确率仅6.2%,多数国产/国际模型准确率跌破10%,就连表现最好的OpenAI DeepResearch也仅得42.9%。
BrowseComp-ZH通过“逆向设计法”,从明确答案出发,构造复杂问题,确保百度、Bing、Google三大搜索引擎无法直接命中答案,且主流大模型难以直接答对。最终,测试集包含289道高难度中文多跳检索题,覆盖影视、艺术、医学等11大领域。
测试结果显示,多数模型准确率低于10%,仅少数突破20%。研究者指出,模型需具备多跳推理与信息整合能力,才能应对中文互联网的复杂检索任务。此外,测试还揭示四大发现:仅靠记忆不可行、推理能力至关重要、多轮检索优于单次、搜索功能并非越多越好。
BrowseComp-ZH数据已开源,研究者期待推动LLM在中文信息环境中的应用。未来,他们计划扩充样本规模并分析模型推理路径与失败案例。
原文链接
本文链接:https://kx.umi6.com/article/18181.html
转载请注明文章出处
相关推荐
换一换
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
三家混战,大模型重回2023
2025-08-03 11:35:50
中信建投:持续推荐AI算力板块
2025-10-28 08:39:40
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
2025-11-18 14:20:39
阿里字节腾讯,集体重仓新风口
2025-10-17 14:18:54
豆包们,开始「上链接」
2025-10-27 10:54:08
开源 AI 模型 TOP5,被中国厂商包圆
2025-10-15 18:39:57
Karpathy 最新发文:别把 AI 当人看,它没欲望也不怕死
2025-11-22 19:29:36
消费电子将被大模型重新定义?云天励飞董事长陈宁:看好推理算力需求的爆发 全面押注AI芯片
2025-07-25 11:23:59
大厂「AI」智能体,等待 DeepSeek 时刻
2025-07-31 11:05:08
中信建投武超则:大模型的迭代永无止境 坚定看好接下来AI应用的发展表现
2025-07-16 18:10:08
从 CIPS & CLM 迈进:中国大模型的智能跃迁
2025-10-30 17:51:34
智谱与市城投集团合作发布杭州城投人工智能产业大模型项目(一期)建设成果
2025-09-15 20:01:43
601 文章
381427 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57