标题:大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
你以为大模型已经能轻松“上网冲浪”了?全新基准测试集BrowseComp-ZH直接打脸主流AI。这项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的测试集,让20多个中外主流大模型集体“挂科”。其中,GPT-4o准确率仅6.2%,多数国产/国际模型准确率跌破10%,就连表现最好的OpenAI DeepResearch也仅得42.9%。
BrowseComp-ZH通过“逆向设计法”,从明确答案出发,构造复杂问题,确保百度、Bing、Google三大搜索引擎无法直接命中答案,且主流大模型难以直接答对。最终,测试集包含289道高难度中文多跳检索题,覆盖影视、艺术、医学等11大领域。
测试结果显示,多数模型准确率低于10%,仅少数突破20%。研究者指出,模型需具备多跳推理与信息整合能力,才能应对中文互联网的复杂检索任务。此外,测试还揭示四大发现:仅靠记忆不可行、推理能力至关重要、多轮检索优于单次、搜索功能并非越多越好。
BrowseComp-ZH数据已开源,研究者期待推动LLM在中文信息环境中的应用。未来,他们计划扩充样本规模并分析模型推理路径与失败案例。
原文链接
本文链接:https://kx.umi6.com/article/18181.html
转载请注明文章出处
相关推荐
换一换
刚刚,智谱港交所敲钟!市值528亿港元
2026-01-08 11:04:01
中国企业调用大模型日均超10万亿Tokens
2025-09-01 12:17:48
宇树科技王兴兴:谁能把机器人用的大模型做出来 谁就是全世界最厉害的AI公司和机器人公司
2026-01-30 12:25:48
港股AGI第一股“云知声”首战告捷:大模型贡献1亿收入,单客价直线提升116.2%,AI保险业务暴涨1386.8%
2025-08-29 20:43:34
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
2025-12-18 15:51:59
阶跃星辰杀入季后赛,强势跻身AI“新六小虎”第一梯队
2026-02-27 15:48:37
花3000元让AI改口,大模型的尽头是广告?
2026-01-06 19:29:29
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式
2025-12-16 10:32:22
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
2025最大赌注:为什么所有厂商都押宝AI手机?
2025-12-25 09:25:38
662 文章
488846 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18