测试基准不靠谱

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

"最强开源模型"Reflection遭质疑造假风波，仅发布一周即面临多重挑战。最初，官方宣称的成绩在第三方测试中大打折扣，模型还被指责存在套壳Claude的嫌疑。随后，厂商CEO发布道歉声明，但否认造假，表示正在调查原因。质疑焦点包括成绩的可靠性、是否存在套壳行为及版本混淆等问题。同时，英伟达科学家Jim Fan指出，当前的基准测试体系存在缺陷，容易被模型造假。此次事件凸显了大模型测试标准与方法的紧迫性改革需求。

原文链接