"最强开源模型"Reflection遭质疑造假,官方成绩与第三方测试结果出入巨大,甚至被指套用Claude模型。创业团队CEO已公开致歉,但否认造假,表示正调查原因。英伟达科学家Jim Fan指出,当前的基准测试已不足以验证模型的真实性能,建议转向独立第三方评估或用户投票的榜单作为参考。此事件凸显了开源模型评价体系的漏洞,并引发关于测试方法改革的讨论。 事件始于小型创业团队声称其70B参数的开源模型Reflection超越了包括GPT-4在内的多个先进模型。然而,官方发布的测试成绩在第三方独立测评机构Artificial Analysis的复测中无法复现,成绩远低于官方宣称水平。随后,有证据表明Reflection可能套用Claude模型,进一步质疑其真实性。尽管团队创始人Sahil Chaudhary回应称未套壳任何模型,正整理证据以澄清事件,但致歉声明并未承认造假。CEO的道歉声明并未平息外界质疑,反而引发了更多关于测试方法可靠性的讨论。 事件发展至今,不仅揭示了开源模型评价体系的潜在缺陷,还促使行业内外关注如何构建更加公正、透明的模型评测机制。随着科技界对这一事件的关注,预计未来将会有更多关于模型评估标准和方法的探讨,旨在提升评估的准确性和公正性。
原文链接
本文链接:https://kx.umi6.com/article/6319.html
转载请注明文章出处
相关推荐
.png)
换一换
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
2024-09-15 15:30:50
华尔街初级银行家瑟瑟发抖 OpenAI秘密项目将涉足投行业务
2025-10-22 15:47:47
自动驾驶,走出青春期
2025-10-23 15:09:02
研究显示:低质数据可令 AI“大脑退化”,OpenAI 奥尔特曼担心的“死网论”正逐渐成真
2025-10-22 20:51:26
Netflix 宣布全力投入 AI:“能帮人类把故事讲得更好”
2025-10-22 16:48:46
全国人大常委会法工委:网络安全法拟增加促进AI安全与发展内容
2025-10-23 18:13:26
新研究揭穿Claude底裤,马斯克盖棺定论
2025-10-23 15:05:55
阿里巴巴将开启夸克AI眼镜预售 推动人工智能应用商业化
2025-10-23 13:08:00
Reddit 起诉 Perplexity,指控后者未经授权为 AI 抓取和使用数据
2025-10-23 16:09:59
Meta削减人工智能部门约600个职位,精简架构以加速组织转型
2025-10-23 02:55:30
两部门:启动2025年度智能制造系统解决方案“揭榜挂帅”项目申报工作
2025-10-22 16:50:23
摩尔线程、国家信息中心战略合作!国产GPU空前新机遇
2025-10-23 20:13:57
强脑科技在成都设新公司 含AI相关业务
2025-10-23 14:07:29
515 文章
226830 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07