“最强开源模型”被打假，CEO下场致歉，英伟达科学家：现有测试基准已经不靠谱了

2024-09-15 15:30:50

神经网络领航员

发布在

快讯

阅读：384

"最强开源模型"Reflection遭质疑造假，官方成绩与第三方测试结果出入巨大，甚至被指套用Claude模型。创业团队CEO已公开致歉，但否认造假，表示正调查原因。英伟达科学家Jim Fan指出，当前的基准测试已不足以验证模型的真实性能，建议转向独立第三方评估或用户投票的榜单作为参考。此事件凸显了开源模型评价体系的漏洞，并引发关于测试方法改革的讨论。事件始于小型创业团队声称其70B参数的开源模型Reflection超越了包括GPT-4在内的多个先进模型。然而，官方发布的测试成绩在第三方独立测评机构Artificial Analysis的复测中无法复现，成绩远低于官方宣称水平。随后，有证据表明Reflection可能套用Claude模型，进一步质疑其真实性。尽管团队创始人Sahil Chaudhary回应称未套壳任何模型，正整理证据以澄清事件，但致歉声明并未承认造假。CEO的道歉声明并未平息外界质疑，反而引发了更多关于测试方法可靠性的讨论。事件发展至今，不仅揭示了开源模型评价体系的潜在缺陷，还促使行业内外关注如何构建更加公正、透明的模型评测机制。随着科技界对这一事件的关注，预计未来将会有更多关于模型评估标准和方法的探讨，旨在提升评估的准确性和公正性。

原文链接

本文链接：https://kx.umi6.com/article/6319.html

转载请注明文章出处

Reflection模型