1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

"最强开源模型"Reflection遭质疑造假,官方成绩与第三方测试结果出入巨大,甚至被指套用Claude模型。创业团队CEO已公开致歉,但否认造假,表示正调查原因。英伟达科学家Jim Fan指出,当前的基准测试已不足以验证模型的真实性能,建议转向独立第三方评估或用户投票的榜单作为参考。此事件凸显了开源模型评价体系的漏洞,并引发关于测试方法改革的讨论。 事件始于小型创业团队声称其70B参数的开源模型Reflection超越了包括GPT-4在内的多个先进模型。然而,官方发布的测试成绩在第三方独立测评机构Artificial Analysis的复测中无法复现,成绩远低于官方宣称水平。随后,有证据表明Reflection可能套用Claude模型,进一步质疑其真实性。尽管团队创始人Sahil Chaudhary回应称未套壳任何模型,正整理证据以澄清事件,但致歉声明并未承认造假。CEO的道歉声明并未平息外界质疑,反而引发了更多关于测试方法可靠性的讨论。 事件发展至今,不仅揭示了开源模型评价体系的潜在缺陷,还促使行业内外关注如何构建更加公正、透明的模型评测机制。随着科技界对这一事件的关注,预计未来将会有更多关于模型评估标准和方法的探讨,旨在提升评估的准确性和公正性。

原文链接
本文链接:https://kx.umi6.com/article/6319.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
2024-09-15 15:30:50
山东省“十五五”规划建议:推动深海空天、具身智能、生物制造、脑机接口、量子科技、元宇宙、氢能等成为新的经济增长点
2025-12-08 09:20:01
广西“十五五”规划建议:打造面向东盟开放合作高能级平台
2025-12-07 10:24:46
中国电信董事长柯瑞文:加快推进算力基础设施建设 强化国产算力芯片适配
2025-12-07 21:52:07
亚马逊CTO:开发者只要能进化绝不会被AI取代
2025-12-07 22:52:28
山东省“十五五”规划建议:加快机器人和智能装备推广应用 打造低空经济发展集聚区、内河新能源船舶制造基地
2025-12-08 09:21:09
AI将冲击几乎所有工作!麦肯锡预测:全球高达8亿个岗位会被取代
2025-12-08 11:24:37
继微信出现“被动下线”之后,阿里系 App 禁止豆包手机登录
2025-12-06 21:52:11
央视起底 AI 带娃现象,专家称沉迷或阻碍低龄儿童认知发育
2025-12-06 16:37:45
联想天禧AI足球智能体正式上线,亮相咪咕世界杯抽签夜直播
2025-12-06 17:40:08
看完最新国产AI写的公众号文章,我慌了!
2025-12-08 21:48:04
微博CEO王高飞谈AI手机:发微博功能待确认 主流应用操作存限制
2025-12-08 16:38:11
摩根大通CEO谈AI:使人们可以工作不那么辛苦 享受美好生活
2025-12-08 11:23:28
24小时热文
更多
扫一扫体验小程序