"最强开源模型"Reflection遭质疑造假,官方成绩与第三方测试结果出入巨大,甚至被指套用Claude模型。创业团队CEO已公开致歉,但否认造假,表示正调查原因。英伟达科学家Jim Fan指出,当前的基准测试已不足以验证模型的真实性能,建议转向独立第三方评估或用户投票的榜单作为参考。此事件凸显了开源模型评价体系的漏洞,并引发关于测试方法改革的讨论。 事件始于小型创业团队声称其70B参数的开源模型Reflection超越了包括GPT-4在内的多个先进模型。然而,官方发布的测试成绩在第三方独立测评机构Artificial Analysis的复测中无法复现,成绩远低于官方宣称水平。随后,有证据表明Reflection可能套用Claude模型,进一步质疑其真实性。尽管团队创始人Sahil Chaudhary回应称未套壳任何模型,正整理证据以澄清事件,但致歉声明并未承认造假。CEO的道歉声明并未平息外界质疑,反而引发了更多关于测试方法可靠性的讨论。 事件发展至今,不仅揭示了开源模型评价体系的潜在缺陷,还促使行业内外关注如何构建更加公正、透明的模型评测机制。随着科技界对这一事件的关注,预计未来将会有更多关于模型评估标准和方法的探讨,旨在提升评估的准确性和公正性。
原文链接
本文链接:https://kx.umi6.com/article/6319.html
转载请注明文章出处
相关推荐
换一换
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
2024-09-15 15:30:50
近千名爱好者在深圳腾讯大厦门口排队安装OpenClaw 今早11点预约号发放完毕
2026-03-06 17:21:47
首个物理AI数据基座平台“无垠”落户浙江,专治机器人数据荒,家庭工业商业场景全覆盖
2026-03-09 19:00:56
鹅厂门口爆满了!腾讯工程师在总部楼下免费安装OpenClaw
2026-03-06 15:12:11
AI“养龙虾”走红 专家建议:部署OpenClaw关闭不必要的公网访问
2026-03-09 20:09:18
龙虾上桌!上市公司抢着养 OpenClaw引爆科技圈
2026-03-09 18:01:30
埃斯顿(2715.HK)今日登陆港交所 国产机器人龙头开启A+H新征程
2026-03-09 09:27:00
全国人大代表张帆:建议研究出台加强工业数据集建设的财税支持政策
2026-03-06 19:29:19
中信证券:主动补库周期来临 特种布基本面将加速赶超
2026-03-10 09:01:12
国产AI短剧《霍去病》火到海外 播放量超5亿!3000元成本、3人团队5天产出80集
2026-03-06 17:20:41
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
2026-03-06 23:41:48
郑栅洁:从未来发展考虑 将推进人工智能超大规模智算集群、卫星互联网、可控核聚变等一系列重大工程和项目
2026-03-06 17:23:58
中国信通院:截至2025年6月我国计算设备智能算力规模达到782 EFlops 同比增长96%
2026-03-06 14:07:35
640 文章
428920 浏览
24小时热文
更多
-
2026-03-10 09:02:22 -
2026-03-10 09:01:12 -
2026-03-10 09:00:02