1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

"最强开源模型"Reflection遭质疑造假,官方成绩与第三方测试结果出入巨大,甚至被指套用Claude模型。创业团队CEO已公开致歉,但否认造假,表示正调查原因。英伟达科学家Jim Fan指出,当前的基准测试已不足以验证模型的真实性能,建议转向独立第三方评估或用户投票的榜单作为参考。此事件凸显了开源模型评价体系的漏洞,并引发关于测试方法改革的讨论。 事件始于小型创业团队声称其70B参数的开源模型Reflection超越了包括GPT-4在内的多个先进模型。然而,官方发布的测试成绩在第三方独立测评机构Artificial Analysis的复测中无法复现,成绩远低于官方宣称水平。随后,有证据表明Reflection可能套用Claude模型,进一步质疑其真实性。尽管团队创始人Sahil Chaudhary回应称未套壳任何模型,正整理证据以澄清事件,但致歉声明并未承认造假。CEO的道歉声明并未平息外界质疑,反而引发了更多关于测试方法可靠性的讨论。 事件发展至今,不仅揭示了开源模型评价体系的潜在缺陷,还促使行业内外关注如何构建更加公正、透明的模型评测机制。随着科技界对这一事件的关注,预计未来将会有更多关于模型评估标准和方法的探讨,旨在提升评估的准确性和公正性。

原文链接
本文链接:https://kx.umi6.com/article/6319.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了
2024-09-15 15:30:50
阿里通义千问发布迄今最大模型——Qwen3-Max-Preview
2025-09-06 00:27:49
Anthropic突然封锁中国企业,我们该从中学到什么?
2025-09-06 11:33:57
中泰证券:第三季度有望迎来医疗器械板块阶段性拐点
2025-09-05 08:17:22
AI如何让获客成本直降80%,利润翻三倍?
2025-09-05 14:21:15
马斯克旗下AI女友Ani夏装换新:高叉热裤到热辣比基尼
2025-09-04 23:08:57
消息称 DeepSeek 正开发更先进模型:具备 AI 智能体能力,剑指年底发布
2025-09-04 18:07:12
美团将上线AI搜索功能:基于用户行为与需求进行智能匹配
2025-09-05 19:24:24
2025世界智能产业博览会今天开幕
2025-09-05 08:16:16
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
2025-09-06 11:35:08
博通与OpenAI合作的独家芯片或将于明年上市
2025-09-05 10:22:40
Anthropic停服 智谱回应推出“Claude API 用户特别搬家计划”
2025-09-05 19:25:32
对话阿里巴巴国际站张阔:几分钟完成几周的工作,AI如何改写跨境贸易
2025-09-06 08:32:00
24小时热文
更多
扫一扫体验小程序