"最强开源模型"Reflection遭质疑造假风波,仅发布一周即面临多重挑战。最初,官方宣称的成绩在第三方测试中大打折扣,模型还被指责存在套壳Claude的嫌疑。随后,厂商CEO发布道歉声明,但否认造假,表示正在调查原因。质疑焦点包括成绩的可靠性、是否存在套壳行为及版本混淆等问题。同时,英伟达科学家Jim Fan指出,当前的基准测试体系存在缺陷,容易被模型造假。此次事件凸显了大模型测试标准与方法的紧迫性改革需求。
原文链接
本文链接:https://kx.umi6.com/article/6304.html
转载请注明文章出处
相关推荐
换一换
“最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已不靠谱
2024-09-15 12:58:37
9.9万起,宇树人形机器人量产了!360°起跳秀操作,英伟达科学家:想要
2024-08-20 17:40:25
上海人工智能实验室推出DeepLink多元算力混合推理加速方案
2026-03-09 15:53:40
AI短剧《霍去病》走红!导演澄清制作细节:3000元仅算力成本
2026-03-08 17:25:18
“小龙虾”好玩但太费钱 国产GPU厂商云天励飞放言:成本将降低100万倍
2026-03-06 15:11:03
三星:考虑与多家AI公司建立合作 押注“多AI模型”手机战略
2026-03-09 20:09:26
龙虾最佳适配模型,OpenClaw之父给出了推荐
2026-03-09 12:35:13
88岁图灵奖得主,用Claude一小时破解30年数学悬案
2026-03-09 13:41:57
腾讯版“小龙虾”WorkBuddy正式上线
2026-03-09 15:52:31
中国信通院:截至2025年6月我国计算设备智能算力规模达到782 EFlops 同比增长96%
2026-03-06 14:07:35
科研AI出了个狠角色:开源30B小模型,硬刚Gemini和Claude
2026-03-09 12:34:15
埃斯顿(2715.HK)今日登陆港交所 国产机器人龙头开启A+H新征程
2026-03-09 09:27:00
阿莱德:目前公司仅有极个别订单最终交货地位于迪拜 涉及订单金额占公司整体营收比例不足1%
2026-03-06 11:58:07
676 文章
481638 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18