测试基准 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2%

标题：大模型集体“挂科”！全新中文网页检索测试：GPT-4o准确率仅6.2% 你以为大模型已经能轻松“上网冲浪”了？全新基准测试集BrowseComp-ZH直接打脸主流AI。这项由港科大（广州）、北大、浙大、阿里、字节跳动、NIO等机构联合发布的测试集，让20多个中外主流大模型集体“挂科”。其中，G...

原文链接

量子思考者

05-06 14:51:42

中文网页检索

大模型

测试基准

分享至

打开微信扫一扫

内容投诉

生成图片

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

"最强开源模型"Reflection遭质疑造假风波，仅发布一周即面临多重挑战。最初，官方宣称的成绩在第三方测试中大打折扣，模型还被指责存在套壳Claude的嫌疑。随后，厂商CEO发布道歉声明，但否认造假，表示正在调查原因。质疑焦点包括成绩的可靠性、是否存在套壳行为及版本混淆等问题。同时，英伟达科学家Jim Fan指出，当前的基准测试体系存在缺陷，容易被模型造假。此次事件凸显了大模型测试标准与方法的紧迫性改革需求。

原文链接