1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

"最强开源模型"Reflection遭质疑造假,官方成绩与第三方测试结果出入巨大,甚至被指套用Claude模型。创业团队CEO已公开致歉,但否认造假,表示正调查原因。英伟达科学家Jim Fan指出,当前的基准测试已不足以验证模型的真实性能,建议转向独立第三方评估或用户投票的榜单作为参考。此事件凸显了开源模型评价体系的漏洞,并引发关于测试方法改革的讨论。 事件始于小型创业团队声称其70B参数的开源模型Reflection超越了包括GPT-4在内的多个先进模型。然而,官方发布的测试成绩在第三方独立测评机构Artificial Analysis的复测中无法复现,成绩远低于官方宣称水平。随后,有证据表明Reflection可能套用Claude模型,进一步质疑其真实性。尽管团队创始人Sahil Chaudhary回应称未套壳任何模型,正整理证据以澄清事件,但致歉声明并未承认造假。CEO的道歉声明并未平息外界质疑,反而引发了更多关于测试方法可靠性的讨论。 事件发展至今,不仅揭示了开源模型评价体系的潜在缺陷,还促使行业内外关注如何构建更加公正、透明的模型评测机制。随着科技界对这一事件的关注,预计未来将会有更多关于模型评估标准和方法的探讨,旨在提升评估的准确性和公正性。

原文链接
本文链接:https://kx.umi6.com/article/6319.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
2024-09-15 15:30:50
阿联酋人工智能公司G42:未来几年内将数据中心总容量提升至5吉瓦
2026-01-21 17:23:33
小米超级小爱近期更新功能一览公布,含随心修图、AI 文生图、圈屏搜题等
2026-01-21 16:17:25
黄仁勋:AI发展将带来大规模基建投资潮 数据中心建设对建筑、技术工人需求上升
2026-01-22 11:53:27
知名游戏女主播怒斥AI修图 花大手笔清除不雅照
2026-01-22 08:43:34
英伟达黄仁勋:AI机器人是欧洲难得机遇
2026-01-22 08:44:42
智谱 GLM Coding Plan 官宣暂时限售:1 月 23 日开启,每日 10:00 刷新额度
2026-01-21 15:16:40
欧盟提出《数字网络法案》拟统一网络连接规则
2026-01-21 19:24:13
过去一年,中国AI如何改变全球开源格局?
2026-01-22 13:56:28
卢宗青团队新作:人类先验打底,统一动作对齐,通用机器人模型正在落地
2026-01-22 17:03:53
马斯克:年底将出现比人类更聪明的AI 能源是AI最大限制因素
2026-01-23 10:47:05
微软AI负责人预言:未来五年内人人都将有AI伴侣
2026-01-21 22:27:36
最新调仓路径显现 基金经理关注确定性与安全边际
2026-01-22 07:43:21
24小时热文
更多
扫一扫体验小程序