
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
你以为大模型已经能轻松“上网冲浪”了?全新基准测试集BrowseComp-ZH直接打脸主流AI。这项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的测试集,让20多个中外主流大模型集体“挂科”。其中,G...
原文链接
"最强开源模型"Reflection遭质疑造假风波,仅发布一周即面临多重挑战。最初,官方宣称的成绩在第三方测试中大打折扣,模型还被指责存在套壳Claude的嫌疑。随后,厂商CEO发布道歉声明,但否认造假,表示正在调查原因。质疑焦点包括成绩的可靠性、是否存在套壳行为及版本混淆等问题。同时,英伟达科学家Jim Fan指出,当前的基准测试体系存在缺陷,容易被模型造假。此次事件凸显了大模型测试标准与方法的紧迫性改革需求。
原文链接
加载更多

暂无内容